spark 主要作者之一毕业论文(大型集群上的快速和通用数据处理架构)

8 篇文章 0 订阅
7 篇文章 0 订阅

本文是spark主要作者的的博士毕业论文读书笔记,作者几百页字,从推出背景开始,即:最近几年数据量增长了不少,但是单机处理性能和IO却没有,这样企业就开始寻求集群模式的扩展方案。存在一些解决方案:如mapreduce,自动处理故障的批处理计算模型,pregel、f1,storm、impala等,但问题依旧存在:

  • 容错,节点故障与慢节点很常见,如何加速?
  • 并行化:需要如何并行处理数据?
  • 用户资源共享,如何动态缩减资源

紧接着作者开始引出了RDD这种数据模型,介绍了其特征,并将其应用在spark上,取得了巨大的成功。基于rdd之上的应用模型,如spark sql、spark streaming依旧获得了很大的成功。Dstream相对于RDD的挑战更大。大部分“大数据”都是实时获取的,并且到达之时最有价值.大规模的节点集群,系统故障和慢节点(straggler)问题会变得很严重,恢复变得很重要。现有的系统都无法应对。这里提出一种名为 离散流(D-Streams) 的新式流数据处理模型来克服上述问题。与管理长 时间存在的操作不同,D-Streams 结构将各运算流化成为一系列短时间间隔的无状态、确定性 的批计算。

最后作者指出目前rdd的瓶颈在哪。一个系统在设立指出就应该清楚的知道其瓶颈在哪,处理瓶颈优化相当重要。当 Cloudera 发布 Impala SQL 引擎时,伯克利 AMPLab 发现,与 Shark 相 比,在许多查询中,性能几乎相同 [111]。这是为什么呢?这些查询要么是 I/O,要么是网络 瓶颈,这两个系统都使可用带宽达到了饱和。

未来方向:作者阐述了spark未来应该从如下发展:通信、异步、准确性、版本跟踪等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值