博客专栏  >  云计算/大数据   >  Spark

Spark

主要包括Spark源码的一系列学习,还有Spark的使用,性能优化等一系列的学习记录,非常能够希望与大家一起学习,共同进步。

关注
2 已关注
16篇博文
  • Spark进阶学习——Stage划分

    本文要解决的问题:由于近期重点需要研究Spark的调度优化问题,所以对这一块进行重点分析。 本文主要讨论Spark中Stage的划分。当rdd触发action操作之后,会调用SparkContext...

    2016-06-22 16:32
    384
  • Spark源码学习(10)——Spark Streaming

    本文要解决的问题: 从源码级别对Spark Streaming进行简单学习。 Summarize Spark Streaming实现了对实时流数据的高吞吐量、低容错的数据处理API。它的...

    2016-07-08 22:44
    1582
  • Spark源码学习(9)——Spark On Yarn

    本文要解决的问题:了解Spark在Yarn平台上的运行过程。修改配置文件首先需要修改配置文件spark-env.sh。在这个文件中需要添加两个属性:Export HADOOP_HOME=/../had...

    2016-06-20 13:13
    398
  • Spark源码学习(8)——NetWork

    本文要解决的问题: 通过对Spark源码的分析,对它Network实现模块有更加深入的了解。 网络管理,由于分布式集群,那么无论master还是worker都离不开网络通讯。Network包位...

    2016-06-18 15:36
    400
  • Spark源码学习(7)——Broadcast

    本文要解决的问题:从源码角度学习一下Spark中Broadcast板块的工作过程和实现细节。Broadcast变量是Spark所支持的两种共享变量。主要共享分布式计算过程中各个task都会用到的只读变...

    2016-06-18 14:27
    527
  • Spark源码学习(6)——Shuffle

    本文要解决的问题:通过Spark源码学习,进一步深入了解Shuffle过程。Shuffle 介绍在Map和Reduce之间的过程就是Shuffle,Shuffle的性能直接影响整个Spark的性能。所...

    2016-06-17 16:19
    500
  • Spark源码学习(5)——Storage

    本文要解决的问题: 主要研究Spark的存储模块,通过阅读源码,对分布式存储有更深的理解。 BlockManager Storagef模块主要分为两层: 1):负责向BlockMana...

    2016-06-14 13:35
    2994
  • Spark源码学习(4)——Scheduler

    本文要解决的问题: 从scheduler各个类的具体方法阅读源码,进一步了解Spark的scheduler的工作原理和过程。Scheduler的基本过程用户提交的Job到DAGScheduler后,...

    2016-06-13 22:05
    1026
  • Spark源码学习(3)——Job Runtime

    本文要解决的问题: 本文主要说明作业提交的的具体运行环境,通过学习,对作业的运行有更加深入的理解。基本流程这里从SparkContext中的runJob方法开始跟踪它的源码过程。下面的图简要的描述了...

    2016-06-12 17:19
    770
  • Spark源码学习(2)——Spark Submit

    本文要解决的问题: 通过查看Spark作业提交的源码,对其作业提交过程有更深的理解。作业提交的基本流程首先需要找到Spark submit过程的源码。在工程路径的spark.deploy.Spark...

    2016-06-11 21:27
    1055
  • Spark源码学习(1)——RDD分析

    Spark源码学习(1)——RDD分析 本文要解决的问题: 从更深层次理解Spark的RDD 学习Spark的时候,我们可以从Spark的核心内容看起,即RDD。RDD全称Resilient Dis...

    2016-06-09 23:58
    636
  • Spark的architectue

    Spark的architectue本文章主要对Spark的基本架构和重要模块作基本介绍,不会涉及Spark的安装部署以及使用在分析深入源码之前,再从宏观上分析一下spark的主要架构。What is ...

    2016-06-02 16:35
    997
  • Spark学习——Spark Streaming:大规模流式数据处理

    Spark学习——Spark Streaming:大规模流式数据处理 转自:http://www.csdn.net/article/2014-01-27/2818282-Spark-Stre...

    2016-06-07 23:09
    1392
  • Spark源码学习——在linux环境下用IDEA看Spark源码

    Spark源码学习——在linux环境下用IDEA看Spark源码本篇文章主要解决的问题 1.Spark在Linux下实验环境的搭建一、Spark源码阅读环境的准备本文介绍的是Centos下的各项...

    2016-06-05 21:24
    1452
  • Spark性能调优——扩展篇

    本文要解决的问题:从更深层次考虑,对Spark进行性能调优。目的继基础篇分析了开发调优与资源调优之后,本文作为拓展篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优...

    2016-06-16 12:16
    9716
  • Spark性能调优——基础篇

    本文要解决的问题: Spark在使用过程中不可避免的需要进行一系列的性能优化,本文就Spark性能调优的基础部分进行总结和归纳(开发调优和资源调优),参考了不少前辈的文章,在此非常感谢。目的在大数据...

    2016-06-15 15:51
    5793
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部