Spark-理解RDD

最新推荐文章于 2022-04-28 16:28:35 发布

07H_JH

最新推荐文章于 2022-04-28 16:28:35 发布

阅读量3.9k

点赞数

分类专栏：大数据框架 spark/hadoop学习文章标签： spark

本文链接：https://blog.csdn.net/jianghuxiaojin/article/details/51229149

版权

大数据框架同时被 2 个专栏收录

107 篇文章 24 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

spark/hadoop学习

36 篇文章 14 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨Spark的计算模型，重点解析RDD（弹性分布式数据集）的原理、特性和操作。RDD是只读记录的集合，通过变换操作创建，支持并行计算。RDD具有分区、依赖、计算函数等属性，并通过transformations和actions实现计算。调度器根据RDD的lineage构建DAG执行任务，内存管理采用LRU回收策略，检查点用于长血统恢复。

摘要由CSDN通过智能技术生成

问题

spark的计算模型是如何做到并行的呢？如果你有一箱香蕉，让三个人拿回家吃完，如果不拆箱子就会很麻烦对吧，哈哈，一个箱子嘛，当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开，倒出来香蕉，分别拿三个小箱子重新装起来，然后，各自抱回家去啃吧。 Spark和很多其他分布式计算系统都借用了这种思想来实现并行：把一个超大的数据集，切分成N个小堆，找M个执行器（M < N），各自拿一块或多块数据慢慢玩，玩出结果了再收集在一起，这就算执行完啦。那么Spark做了一项工作就是：凡是能够被我算的，都是要符合我的要求的，所以spark无论处理什么数据先整成一个拥有多个分块的数据集再说，这个数据集就叫RDD。

RDD

RDD(Resilient Distributed Datasets,弹性分布式数据集)是一个分区的只读记录的集合。RDD只能通过在稳定的存储器或其他RDD的数据上的确定性操作来创建。我们把这些操作称作变换以区别其他类型的操作。例如 map,filter和join。
RDD在任何时候都不需要被”物化”(进行实际的变换并最终写入稳定的存储器上)。实际上，一个RDD有足够的信息描述着其如何从其他稳定的存储器上的数据生成。它有一个强大的特性：从本质上说，若RDD失效且不能重建，程序将不能引用该R