spark 主要作者之一毕业论文（大型集群上的快速和通用数据处理架构）

humanity11

已于 2023-08-16 22:24:41 修改

阅读量2.2k

点赞数

分类专栏：大数据 spark IT搬运库文章标签：大数据 spark

于 2022-04-16 22:40:52 首次发布

本文链接：https://blog.csdn.net/humanity11/article/details/124222014

版权

大数据同时被 3 个专栏收录

18 篇文章 2 订阅

订阅专栏

spark

8 篇文章 0 订阅

订阅专栏

IT搬运库

7 篇文章 0 订阅

订阅专栏

本文是spark主要作者的的博士毕业论文读书笔记，作者几百页字，从推出背景开始，即：最近几年数据量增长了不少，但是单机处理性能和IO却没有，这样企业就开始寻求集群模式的扩展方案。存在一些解决方案：如mapreduce，自动处理故障的批处理计算模型，pregel、f1，storm、impala等，但问题依旧存在：

容错，节点故障与慢节点很常见，如何加速？
并行化：需要如何并行处理数据？
用户资源共享，如何动态缩减资源

紧接着作者开始引出了RDD这种数据模型，介绍了其特征，并将其应用在spark上，取得了巨大的成功。基于rdd之上的应用模型，如spark sql、spark streaming依旧获得了很大的成功。Dstream相对于RDD的挑战更大。大部分“大数据”都是实时获取的，并且到达之时最有价值.大规模的节点集群，系统故障和慢节点（straggler）问题会变得很严重，恢复变得很重要。现有的系统都无法应对。这里提出一种名为离散流(D-Streams) 的新式流数据处理模型来克服上述问题。与管理长时间存在的操作不同，D-Streams 结构将各运算流化成为一系列短时间间隔的无状态、确定性的批计算。

最后作者指出目前rdd的瓶颈在哪。一个系统在设立指出就应该清楚的知道其瓶颈在哪，处理瓶颈优化相当重要。当 Cloudera 发布 Impala SQL 引擎时，伯克利 AMPLab 发现，与 Shark 相比，在许多查询中，性能几乎相同 [111]。这是为什么呢？这些查询要么是 I/O，要么是网络瓶颈，这两个系统都使可用带宽达到了饱和。

未来方向：作者阐述了spark未来应该从如下发展：通信、异步、准确性、版本跟踪等