anzhsoft的技术专栏

专注分布式资源管理和大数据处理平台: Since Dec. 2013

我的第一本著作:Spark技术内幕上市!

现在各大网站销售中!京东:http://item.jd.com/11770787.html当当:http://product.dangdang.com/23776595.html亚马逊:http://www.amazon.cn/SparkInternals前言和目录附上,以便有需要了解的同学:诞生...

2015-09-20 10:00:31

阅读数:52259

评论数:27

Spark技术内幕:Storage 模块整体架构

Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中...

2015-01-18 19:13:13

阅读数:16555

评论数:19

Spark技术内幕:Shuffle的性能调优

通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1  sp...

2015-01-18 19:09:28

阅读数:19432

评论数:6

Spark技术内幕:Shuffle Read的整体流程

本文详细讲解Shuffle Read的整个过程,包括如何获得Block的元数据信息,进行网络,本地读取。通过一个整体的流程架构图,详细大家可以对整个过程有一个更加深刻的把握

2015-01-12 08:07:31

阅读数:18120

评论数:16

Spark技术内幕:Shuffle Map Task运算结果的处理

Shuffle Map Task运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对Shuffle Write的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的...

2015-01-12 08:02:16

阅读数:17247

评论数:12

Spark技术内幕: 如何解决Shuffle Write一定要落盘的问题?

在Spark 0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark 0.8的时候,Shuffle的每个record都会直接写入磁盘。一直到1.2.0,Shuffle的数据是一定会写入本地文件系统的,...

2015-01-11 15:13:24

阅读数:15614

评论数:8

Spark技术内幕:Shuffle Pluggable框架详解,你怎么开发自己的Shuffle Service?

通过Hash Based Shuffle和Sort Based Shuffle的源码,可以得出使用Spark Pluggable框架开发一个第三方的Shuffle Service是比较容易的;这个容易是指功能实现方面。但是这个实现必须要考虑超大规模数据场景下的性能问题,资源消耗问题。

2015-01-08 07:58:40

阅读数:15251

评论数:5

Spark技术内幕:Sort Based Shuffle实现解析

在Spark 1.2.0中,Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle,即spark.shuffle.manager 从hash换成了sort,对应的实现类分别是org.apache.spark.shuffle.h...

2015-01-05 07:29:53

阅读数:17421

评论数:8

2014博客之星: 请大家为我投票

我的400多位CSDN的粉丝们,大家动一下鼠标给我投一票吧。衔接: http://vote.blog.csdn.net/blogstar2014/details?username=anzhsoft2008#content 对于非粉丝并且未登录的,可以使用QQ,微博,百度账号等第三方登陆。谢谢

2014-12-31 08:43:49

阅读数:3936

评论数:67

What’s new in Spark 1.2.0

1.2.0 was released on 12/18, 2014 在2014年5月30日发布了Spark 1.0 和9月11日发布了Spark1.1.后,Spark 1.2 终于在12月18日发布。作为1.X时代的第三个release,它有什么重要更新呢?

2014-12-23 07:42:40

阅读数:3933

评论数:1

2014 BDTC 参会有感

中国大数据技术大会(Big Data Technology Conference,BDTC)是目前国内最具影响、规模最大的大数据领域的技术盛会。大会的前身是Hadoop中国云计算大会(Hadoop in China,HiC)。从2008年仅60人参加的技术沙龙到当下的数千人技术盛宴,作为业内极具实...

2014-12-19 07:28:33

阅读数:4418

评论数:11

Spark技术内幕: Shuffle详解(三)

前两篇文章写了Shuffle Read的一些实现细节。但是要想彻底理清楚这里边的实现逻辑,还是需要更多篇幅的;本篇开始,将按照Job的执行顺序,来讲解Shuffle。即,结果数据(ShuffleMapTask的结果和ResultTask的结果)是如何产生的;结果是如何处理的;结果是如何读取的。

2014-12-07 20:46:13

阅读数:5897

评论数:4

Spark技术内幕: Shuffle详解(二)

本文主要关注ShuffledRDD的Shuffle Read是如何从其他的node上读取数据的。 上文讲到了获取如何获取的策略都在org.apache.spark.storage.BlockFetcherIterator.BasicBlockFetcherIterator#splitLocalRe...

2014-11-30 18:18:57

阅读数:18100

评论数:7

Spark技术内幕: Shuffle详解(一)

通过上面一系列文章,我们知道在集群启动时,在Standalone模式下,Worker会向Master注册,使得Master可以感知进而管理整个集群;Master通过借助ZK,可以简单的实现HA;而应用方通过SparkContext这个与集群的交互接口,在创建SparkContext时就完成了App...

2014-11-29 21:39:15

阅读数:19856

评论数:16

Spark技术内幕: Task向Executor提交的源码解析

在上文《Spark技术内幕:Stage划分及提交源码分析》中,我们分析了Stage的生成和提交。但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑,即需要按照顺序计算的Stage,Stage中包含了可以以partition为单位并行计算的Task。我们并没有...

2014-10-19 18:16:57

阅读数:21111

评论数:13

Spark技术内幕:Stage划分及提交源码分析

在一个RDD触发了一个action(比如count,collect)时,任务是如何被提交到?什么是Stage?DAGScheduler的作用是什么?它是如何划分Stage的?本文将基于源码,进行深入分析。

2014-10-18 23:05:22

阅读数:27015

评论数:29

Spark技术内幕:究竟什么是RDD

RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744....

2014-10-07 17:34:53

阅读数:20395

评论数:4

Spark技术内幕:Master的故障恢复

使用ZK作为HA方案的Master是如何快速故障恢复的呢?本文为你详细解读。最后给出的流程图,可以清楚的理解恢复过程的数据流程和处理逻辑。

2014-10-05 03:45:15

阅读数:10794

评论数:9

Spark技术内幕:Executor分配详解

当用户应用new SparkContext后,集群就会为在Worker上分配executor,那么这个过程是什么呢?本文以Standalone的Cluster为例,详细的阐述这个过程。

2014-10-05 01:02:19

阅读数:30427

评论数:28

Spark技术内幕之任务调度:从SparkContext开始

SparkContext是开发Spark应用的入口,它负责和整个集群的交互,包括创建RDD,accumulators and broadcast variables。理解Spark的架构,需要从这个入口开始。

2014-10-01 21:17:33

阅读数:14654

评论数:2

提示
确定要删除当前文章?
取消 删除
关闭
关闭