博客专栏  >  云计算/大数据   >  Spark技术内幕

Spark技术内幕

通过Spark的源码分析,理解Spark的设计理念,系统架构。从而为Spark的二次开发,社区贡献和性能调优奠定理论基础。

关注
394 已关注
26篇博文
  • 我的第一本著作:Spark技术内幕上市!

    现在各大网站销售中!京东:http://item.jd.com/11770787.html当当:http://product.dangdang.com/23776595.html亚马逊:http://...

    2015-09-20 10:00
    50653
  • Spark技术内幕:Storage 模块整体架构

    Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.R...

    2015-01-18 19:13
    15665
  • Spark技术内幕:Shuffle的性能调优

    通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项...

    2015-01-18 19:09
    17695
  • Spark技术内幕:Shuffle Map Task运算结果的处理

    Shuffle Map Task运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对S...

    2015-01-12 08:02
    16369
  • Spark技术内幕:Shuffle Read的整体流程

    本文详细讲解Shuffle Read的整个过程,包括如何获得Block的元数据信息,进行网络,本地读取。通过一个整体的流程架构图,详细大家可以对整个过程有一个更加深刻的把握

    2015-01-12 08:07
    16800
  • Spark技术内幕: 如何解决Shuffle Write一定要落盘的问题?

    在Spark 0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark 0.8的时候,Shuffle的每...

    2015-01-11 15:13
    14611
  • Spark技术内幕:Shuffle Pluggable框架详解,你怎么开发自己的Shuffle Service?

    通过Hash Based Shuffle和Sort Based Shuffle的源码,可以得出使用Spark Pluggable框架开发一个第三方的Shuffle Service是比较容易的;这个容易...

    2015-01-08 07:58
    14653
  • Spark技术内幕:Sort Based Shuffle实现解析

    在Spark 1.2.0中,Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle,即spark.shuffle.manager...

    2015-01-05 07:29
    16363
  • What’s new in Spark 1.2.0

    1.2.0 was released on 12/18, 2014 在2014年5月30日发布了Spark 1.0 和9月11日发布了Spark1.1.后,Spark 1.2 终于在12月18日发布。...

    2014-12-23 07:42
    3566
  • 2014 BDTC 参会有感

    中国大数据技术大会(Big Data Technology Conference,BDTC)是目前国内最具影响、规模最大的大数据领域的技术盛会。大会的前身是Hadoop中国云计算大会(Hadoop i...

    2014-12-19 07:28
    4018
  • Spark技术内幕: Shuffle详解(三)

    前两篇文章写了Shuffle Read的一些实现细节。但是要想彻底理清楚这里边的实现逻辑,还是需要更多篇幅的;本篇开始,将按照Job的执行顺序,来讲解Shuffle。即,结果数据(ShuffleMap...

    2014-12-07 20:46
    5387
  • Spark技术内幕: Shuffle详解(二)

    本文主要关注ShuffledRDD的Shuffle Read是如何从其他的node上读取数据的。 上文讲到了获取如何获取的策略都在org.apache.spark.storage.BlockFetch...

    2014-11-30 18:18
    17581
  • Spark技术内幕: Shuffle详解(一)

    通过上面一系列文章,我们知道在集群启动时,在Standalone模式下,Worker会向Master注册,使得Master可以感知进而管理整个集群;Master通过借助ZK,可以简单的实现HA;而应用...

    2014-11-29 21:39
    19115
  • Spark技术内幕: Task向Executor提交的源码解析

    在上文《Spark技术内幕:Stage划分及提交源码分析》中,我们分析了Stage的生成和提交。但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑,即需要按照顺...

    2014-10-19 18:16
    20409
  • Spark技术内幕:Stage划分及提交源码分析

    在一个RDD触发了一个action(比如count,collect)时,任务是如何被提交到?什么是Stage?DAGScheduler的作用是什么?它是如何划分Stage的?本文将基于源码,进行深入分...

    2014-10-18 23:05
    26082
  • Spark技术内幕:究竟什么是RDD

    RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英...

    2014-10-07 17:34
    17409
  • Spark技术内幕:Master的故障恢复

    使用ZK作为HA方案的Master是如何快速故障恢复的呢?本文为你详细解读。最后给出的流程图,可以清楚的理解恢复过程的数据流程和处理逻辑。

    2014-10-05 03:45
    10105
  • Spark技术内幕:Executor分配详解

    当用户应用new SparkContext后,集群就会为在Worker上分配executor,那么这个过程是什么呢?本文以Standalone的Cluster为例,详细的阐述这个过程。

    2014-10-05 01:02
    24909
  • Spark技术内幕之任务调度:从SparkContext开始

    SparkContext是开发Spark应用的入口,它负责和整个集群的交互,包括创建RDD,accumulators and broadcast variables。理解Spark的架构,需要从这个入...

    2014-10-01 21:17
    12826
  • Spark 1.0 开发环境构建:maven/sbt/idea

    主要包含使用maven和sbt编译spark源码。还有配置idea等。

    2014-09-07 00:21
    11112
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部