DataFrame与RDD的区别

最新推荐文章于 2024-10-29 12:00:56 发布

疯狂呼呼呼

最新推荐文章于 2024-10-29 12:00:56 发布

阅读量1.1w

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： Spark

本文链接：https://blog.csdn.net/lemonZhaoTao/article/details/79765011

28 篇文章

订阅专栏

本文对比分析了RDD与DataFrame的特点及应用场景。详细介绍了DataFrame相较于RDD的优势，如更丰富的schema信息支持更好的压缩和优化，以及使用不同语言编程时的执行效率一致性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里写图片描述

结合上图进行理解：

这里写图片描述
结合上图进行理解：

Java/Scala 操作RDD的底层是跑在JVM上的
Python 操作RDD的底层不跑在JVM上，它有Python Execution
因此使用RDD编程带来一个很大的问题：
由于使用不同语言操作RDD，底层所运行的环境不同（使用Java/Scala 与 Python 所运行的效率完全是不一样的，Python是会慢一些的）
但是有了DataFrame是不一样的
DF不是直接到运行环境的，中间还有一层是logicplan，统统先转换成逻辑执行计划之后，再去进行运行的；所以现在DF不管采用什么语言，它的执行效率都是一样的

从编程时，引入的依赖包角度进行理解：
我们会发现在工作中，只需要添加Spark SQL的依赖就可以了，不需要再特地添加Spark Core的依赖了
因为Spark SQL也需要依赖Spark Core，因此可以不添加Spark Core的依赖