Spark(21) -- Spark SQL -- DataFrame

最新推荐文章于 2023-02-09 17:13:52 发布

erainm

最新推荐文章于 2023-02-09 17:13:52 发布

阅读量211

点赞数

分类专栏：大数据学习文章标签： spark

本文链接：https://blog.csdn.net/eraining/article/details/108941993

版权

大数据学习专栏收录该内容

148 篇文章 5 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

DataFrame它不是Spark SQL提出来的，而是早期在R、Pandas语言就已经有了的。就易用性而言，对比传统的MapReduce API，说Spark的RDD API有了数量级的飞跃并不为过。然而，对于没有MapReduce和函数式编程经验的新手来说，RDD API仍然存在着一定的门槛。另一方面，数据科学家们所熟悉的R、Pandas等传统数据框架虽然提供了直观的API，却局限于单机处理，无法胜任大数据场景。为了解决这一矛盾，Spark SQL 1.3.0在原有SchemaRDD的基础上提供了与R和Pandas风格类似的DataFrame API。新的DataFrame AP不仅可以大幅度降低普通开发者的学习门槛，同时还支持Scala、Java与Python三种语言。更重要的是，由于脱胎自SchemaRDD，DataFrame天然适用于分布式大数据场景。

1. DataFrame是什么

在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。
在这里插入图片描述
使得Spark SQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行针对性的优化，最终达到大幅提升运行时效率。反观RDD，由于无从得知所存数据元素的具体内部结构，Spark Core只能在stage层面进行简单、通用的流水线优化。

了解本专栏

超级会员免费看

erainm

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark(21) -- Spark SQL -- DataFrame

1. 读取文本文件创建DataFrame2. 读取json文件创建DataFrame3. 读取parquet列式存储格式文件创建DataFrame4. 读取CSV的数据集5. scala代码演示几种创建Dataframe的方式（使用caseclass的方式、直接使用TODF的方式、使用外部的Json的格式）
复制链接

扫一扫