Spark简介系列02

24 篇文章 27 订阅 ¥9.90 ¥99.00

结构化API指哪三类核心分布式结合类型?

Dataset类型、DataFrame类型、SQL表和视图

结构化API包含哪两类API?

非类型化的DataFrame和类型化的Dataset

DataFrame如何保证数据规范?

DataFrame的类型校验由Spark维护,仅在运行时检查这些类型是否与Schema定义的类型一致。

Dataset的类型检查在编译时还是运行时?

在编译时检查类型是否符合规范

Dataset仅适用于基于JVM的语言,对吗?

对的,例如Scala通过case类、Java通过Java beans指定类型

DataFrame和Dataset的联系?

DataFrame的本质就是Row类型的Dataset集合,即Dataset<Row>

DataFrame的优势体现在哪里?

DataFrame无类型,而又以Row为类型,通过Schema来映射数据,本质是为了优化基于内存计算这种模式。DataFrame使用自己内部格式维护数据,避开了“类型”带来的垃圾回收开销和对象实例化开销,节省空间的同时,提升了基于内存的计算效率。

不同编程语言,在基于DataFrame的API开发出来的应用程序具有相同的效率,对吗?

对的

结构化代码到执行代码的转换路径?

DataFrame、Datase

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

只要开始永远不晚

谢谢打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值