Spark SQL之DataFrame概述

产生背景

DataFrame不是Spark SQL提出的,而是早期在R、Pandas语言就已经有了的。

Spark RDD API vs MapReduce API

Spark诞生之初,其中一个很重要的目标就是给大数据生态圈提供基于通用语言(java、scala、python)的而且简单易用的API。Spark RDD API 通过函数式编程模式。如果使用MapReduce,则代码量是非常多的。但是对于不懂Java或者Scala语言的小伙伴是很难上手的。

R/Pandas

在R语言中是有DataFrame概念的,而且R语言非常适合做数据统计和分析。但是R语言和Pandas的局限性非常强。仅仅能支持单机处理。现在单机处理的数据能力必然是有限的。
因此Spark的DataFrame就应运而生。Spark SQL中的DataFrame就是从R/Pandas中转换过来的。

Spark SQL DataFrame

DataSet是一个分布式的数据集。
DataFrame是一个以列(列名、列的类型、列值)的形式构成的分布式数据集。按照列赋予不同的名称。可以理解为关系型数据库中的一张表。DataFrame可以包括文件中的数据、hive中的表或者其他数据源如Mysql,Hbase,或者已存在的RDD。
在spark1.3之前没有DataFrame概念,而是有一个SchemaRDD概念。

DataFrame vs RDD

RDD是分布式的可以进行并行处理的集合。
DataFrame与RDD类似,也是一个分布式数据集,但是DataFrame提供的更像是传统数据库中的一张表。除了数据之外,还有列名、列值、列属性。
DataFrame所提供的API层次更高。
在这里插入图片描述
加入RDD中有一个Person数据,每一行就是一条Person数据,但是Person数据中有什么具体信息都不知道。
在这里插入图片描述
DataFrame是按照列的形式组织的,所以我们必然知道列名是什么,数据类型是什么。
因此使用DataFrame时,sparkSQL在执行过程中可以很清楚的知道数据集中有哪些列,列的类型是什么。Spark可以根据这些信息做很好的优化。例如可以只取一个name字段或者只获取age字段,而不需要知道其他列数据。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值