Spark SQL DataFrame/Dataset介绍

Spark SQL DataFrame/Dataset介绍

   Spark的RDD API比传统的MapReduce API在易用性上有了巨大提升,但对于没有MapReduce和函数式编程经验的新手来说,RDD API还是有一定门槛的。

   在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。与RDD的主要区别在于:前者带有Schema元数据,即DataFrame所表示的二维表数据集的每一列都带有名称和类型,其结构如下图所示。

RDD与DataFrame的结构对比]![
  
  上图直观展示了RDD和DataFrame的区别:左边的RDD[Person]虽然以Person为类型参数,但Spark架构本身不了解Person类的内部结构,而右边的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含那些列,每一列的名称和分类分别是什么,这和关系数据库中的物理表类似。有了这些元数据,Spark SQL的查询优化器就可以进行针对性的优化了。在Spark SQL中引入DataFrame能带来如下好处:
1. 精简代码
2. 提升执行效率
3. 减少数据读取:
分析大数据最有效的方法就是忽略无关的数据,根据查询条件进行恰当的裁剪。对于一些比较“智能”的数据格式,Spark SQL可以根据数据文件中附带的统计信息进行剪枝。在这类数据格式中,数据是分段保存的,每段数据都带有最大值、最小值、NULL值数量等统计信息。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值