Spark RDD 论文详解（七）讨论

Shockang

已于 2022-01-21 00:43:03 修改

阅读量4.3k

点赞数 1

分类专栏：大数据技术体系文章标签： spark 大数据 big data

于 2022-01-15 23:28:13 首次发布

本文链接：https://blog.csdn.net/Shockang/article/details/122511092

版权

大数据技术体系专栏收录该内容

282 篇文章 568 订阅

订阅专栏

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

思维导图

在这里插入图片描述

正文

7、讨论

虽然由于 RDDs 的天然不可变性以及粗粒度的转换导致它们似乎提供了有限制的编程接口，但是我们发现它们适合很多类型的应用。

特别的，RDDs 可以表达出现在各种各样的框架提出的编程模型，而且还可以将这些模型组合在同一个程序中（比如跑一个 MapReduce 任务来创建一个图，然后基于这个图来运行 Pregel）以及可以在这些模型中共享数据。

在这一章中，我们在第 7.1 节中讨论 RDDs 可以表达哪些模型以及为什么适合表达这些编程模型。

另外，我们在第 7.2 节中讨论我们推崇的 RDD 的血缘信息的好处，利用这些信息可以帮助我们 debug 模型。

7.1 已经存在的编程模型的表达

对于到目前为止很多独立提出的编程模型，RDDs 都可以高效的表达出来。

这里所说的 “高效”，不仅仅是指使用 RDDs 的输出结果和独立提出的编程模型狂简的输出结果是一致的，而且 RDDs 在优化性能方面比这些框架还要强大，比如将特定的数据保存在内存中、对数据分区以减少网络传输以及高效的从错误中恢复。

可以用 RDDs 表达的模型如下:

MapReduce：可以利用 spark 中的 flatMap 和 groupByKey 操作来表达这个模型，或者如果需要聚合的话可以使用 reduceByKey。
DryadLINQ：DryadLINQ 系统比 MapReduce 更多的操作，但是这些操作都是直接和 RDD 的转换操作（map，groupByKey，join 等）对应的批量操作。
SQL：和 DryadLINQ 一样，SQL 查询都是对一个数据集进行并行的操作计算。
Pregel：Google 的 Pregel 是一个专门解决迭代图计算应用的模型，它一开始看起来和面向数据集的编程模型的其他系统完全不同。在 Pregel 中，一个程序运行一些列的相互协调的supersteps。在每一个 superstep 上，对图上的每一个顶点运行用户自定义的函数来更新这个顶点的相关的状态、改变图的拓扑结构以及向其他顶点发送下一个 superstep 需要的消息。这种模型可以表达非常多的图计算算法，包括最短路径、二部图匹配以及 PageRank。

Pregel 在每一次迭代中都是对所有顶点应用相同的用户定义的函数，这个是使的我们用 RDDs 来实现这个模型的关键点。

因此，每次迭代后，我们都可以将顶点的状态保存在 RDD 中，然后执行一个批量转换操作（apply）来应用这个函数以及生成一个消息的 RDD。
然后我们可以用这个 RDD 通顶点的状态进行 join 来完成消息的交换。

和 Pregel 一样，RDDs 允许将点的状态保存在内存中、控制它们的分区以减少网络通讯以及指出从失败中恢复。

我们在 spark 上用了 200 行代码的包实现了 Pregel，可以查看下面的资料了解详情。

M. Zaharia, M. Chowdhury, T. Das, A. Dave, J. Ma, M. McCauley, M. Franklin, S. Shenker, and I. Stoica. Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. Technical Report UCB/EECS-2011-82, EECS Department, UC Berkeley, 2011.

迭代 MapReduce：最近提出的几个系统，包括 HaLoop 和 Twister，它们提供了可以让用户循环跑一系列的 MapReduce 任务的迭代式 MapReduce 模型。这些系统在迭代之间保持数据分区一致，Twister 也可以将数据保存在内存中。RDDs 可以很简单的表达以上两个优化，而且我们基于 spark 花了 200 行代码实现了 HaLoop。
批量流处理：研究人员最近提出了一些增量处理系统，这些系统是为定期接受新数据然后根据数据更新结果的应用服务的。比如，一个应用需要实时接收新数据，然后每 15 分钟就将接收到的数据和前面 15 分钟的时间窗口的数据进行 join 聚合，将聚合的结果更新到统计数据中。这些系统执行和 Dryad 类似的批处理，但是它们将应用的状态数据存储在分布式系统中。将中间结果放在 RDDs 中可以提高处理速度。
阐释 RDDs 的表达力为什么这么丰富：为什么 RDDs 可以表达多种多样编程模型？原因就是 RDDs 的限制性对很多并行计算的应用的影响是很小的。特别指出的是，虽然 RDDs 只能通过批量转换而得到，但是很多的并行计算的程序都是将相同的操作应用到大量的数据条目中，这样使的 RDDs 的表达力变的丰富。类似的，RDDs 的不变性并不是障碍，因为我们可以创建多个 RDDs 来表达不同版本的相同数据集。事实上，现在很多的 MapReduce 的应用都是运行在不能对文件修改数据的文件系统中，比如 HDFS。
最后一个问题是为什么之前的框架没有提供这中通用型的表达能力呢？我们相信这个是因为这些框架解决的是 MapReduce 和 Dryad 不能解决的特殊性的问题，比如迭代，它们没有洞察到这些问题的共同原因是因为缺少了数据共享的抽象。