spark
文章平均质量分 96
mango_song
专注大数据处理技术
展开
-
Spark源码分析——deploy模块
Background在前文Spark源码分析之-scheduler模块中提到了Spark在资源管理和调度上采用了HadoopYARN的方式:外层的资源管理器和应用内的任务调度器;并且分析了Spark应用内的任务调度模块。本文就Spark的外层资源管理器-deploy模块进行分析,探究Spark是如何协调应用之间的资源调度和管理的。Spark最初是交由Mesos进行资源管理,为了使得转载 2014-01-06 21:25:43 · 1365 阅读 · 0 评论 -
Spark源码解析——Storage模块
Background前段时间琐事颇多,一直没有时间整理自己的博客,Spark源码分析写到一半也搁置了。之前介绍了deploy和scheduler两大模块,这次介绍Spark中的另一大模块 - storage模块。在写Spark程序的时候我们常常和RDD ( Resilient Distributed Dataset ) 打交道,通过RDD为我们提供的各种transformation和a转载 2014-01-06 22:42:45 · 1434 阅读 · 0 评论 -
Spark源码解析——Shuffle
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop MapR原创 2014-01-06 23:04:37 · 2411 阅读 · 1 评论