说说spark rdd

用心去追梦

于 2024-07-18 14:14:20 发布

阅读量283

点赞数 7

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33240556/article/details/140521997

版权

Spark RDD（Resilient Distributed Dataset，弹性分布式数据集）是Apache Spark框架中的核心抽象，它代表了一个不可变、可分区、并能够并行处理的分布式数据集合。以下是RDD的一些关键特性和概念：

分布式与并行处理：RDD可以在Spark集群的多个节点上分布式存储和并行处理，这使得它非常适合处理大规模数据集。
不可变性：一旦创建，RDD就不能被修改。如果需要变换数据，必须通过对现有RDD执行转换操作来创建一个新的RDD，这保证了数据处理的确定性和易于理解性。
弹性容错：RDD通过记录数据的血统（lineage）信息来实现容错。如果某个RDD的部分分区数据丢失，Spark可以根据血统信息重新计算丢失的部分，而不是重新计算整个RDD，这大大提高了系统的可靠性。
惰性计算：RDD采用惰性计算模式，即计算任务只有在真正需要结果时才执行。这种机制减少了不必要的中间结果存储，提升了计算效率。
分区：RDD可以被切分为多个分区，每个分区可以被单独处理。分区策略对于数据的并行处理至关重要，可以手动或自动设置。
操作类型：RDD支持两种类型的操作：
- 转换（Transformation）：如map、filter、join等，这些操作会产生一个新的RDD，但不会立即执行计算，而是等到有动作（Action）调用时才触发。
- 动作（Action）：如count、collect、save等，这类操作会触发实际的计算，并将结果返回给驱动程序或保存到外部存储系统。
缓存：RDD可以通过persist或cache方法进行缓存，将数据保存在内存中（或根据配置，部分在磁盘上），以便后续操作复用，显著提升计算速度。
依赖关系：RDD之间通过转换形成依赖关系链，这种依赖关系分为窄依赖（例如map操作）和宽依赖（例如shuffle操作），Spark根据依赖关系优化执行计划，窄依赖可以更好地支持管道化和局部性优化。

总之，RDD作为Spark的基石，提供了强大而灵活的数据处理能力，是构建大数据处理应用的基础。

用心去追梦

关注

7
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
说说spark rdd

如果某个RDD的部分分区数据丢失，Spark可以根据血统信息重新计算丢失的部分，而不是重新计算整个RDD，这大大提高了系统的可靠性。：RDD之间通过转换形成依赖关系链，这种依赖关系分为窄依赖（例如map操作）和宽依赖（例如shuffle操作），Spark根据依赖关系优化执行计划，窄依赖可以更好地支持管道化和局部性优化。：一旦创建，RDD就不能被修改。：RDD可以通过persist或cache方法进行缓存，将数据保存在内存中（或根据配置，部分在磁盘上），以便后续操作复用，显著提升计算速度。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。