博客专栏  >  云计算/大数据   >  深入理解Spark

深入理解Spark

通过阅读Spark源码,深入理解Spark内部各个子系统的工作原理,并给性能调优和开发工作提供参考意义。

关注
120 已关注
10篇博文
  • Spark的RDD检查点实现分析

    Spark的RDD执行完成之后会保存检查点,便于当整个作业运行失败重新运行时候,从检查点恢复之前已经运行成功的RDD结果,这样就会大大减少重新计算的成本,提高任务恢复效率和执行效率,节省Spark各个...

    2016-05-26 10:30
    14203
  • Spark如何使用Akka实现进程、节点通信的简明介绍

    Akka是一款提供了用于构建高并发的、分布式的、可伸缩的、基于Java虚拟机的消息驱动应用的工具集和运行时环境。从下面Akka官网提供的一段代码示例,可以看出Akka并发编程的简约。

    2016-04-05 12:08
    7675
  • Spark中常用工具类Utils的简明介绍

    Utils是Spark中最常用的工具类之一,如果不关心其实现,也不会对理解Spark有太多影响。但是对于Scala或者Spark的初学者来说,通过了解Utils工具类的实现,也是个不错的入门途径。下面...

    2016-03-16 14:34
    5010
  • SparkContext的初始化(季篇)——测量系统、ContextCleaner等组件介绍

    Spark按照Instance的不同,区分为Master、Worker、Application、Driver和Executor。Spark目前提供的Sink有ConsoleSink、CsvSink、J...

    2016-03-08 09:11
    10170
  • SparkContext的初始化(叔篇)——TaskScheduler的启动

    本文主要介绍TaskScheduler的启动过程。包括:创建LocalActor、 ExecutorSource的创建与注册、ExecutorActor的构建与注册、Spark自身ClassLoade...

    2016-02-29 12:28
    6288
  • SparkContext的初始化(仲篇)——SparkUI、环境变量及调度

    任何系统都需要提供监控功能,用浏览器能访问具有样式及布局,并提供丰富监控数据的页面无疑是一种简单、高效的方式。SparkUI就是这样的服务,它的构成如图3-1所示。

    2016-02-23 08:45
    17109
  • SparkContext的初始化(伯篇)——执行环境与元数据清理器

    第3章 SparkContext的初始化 “道生一,一生二,二生三,三生万物。”——《道德经》 本章导读: SparkContext的初始化是Driver应用程序提交执行的前提,本章内容以local模...

    2016-02-16 10:41
    8224
  • Spark设计理念与基本架构

    Spark是一个通用的并行计算框架,由加州伯克利大学(UCBerkeley)的AMP实验室开发于2009年,并于2010年开源。2013年成长为Apache旗下为大数据领域最活跃的开源项目之一。Spa...

    2016-01-22 13:52
    16433
  • 《深入理解SPARK:核心思想与源码分析》(第1章)

    在深入了解一个系统的原理、实现细节之前,应当先准备好它的源码编译环境、运行环境。如果能在实际环境安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的技术人员...

    2016-01-15 13:44
    12704
  • 《深入理解SPARK:核心思想与源码分析》一书正式出版上市

    自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的《深入理解Spark:核心思想与源码分析》一书现在已经正式出版上市,目前亚马逊、京东、当当、天猫等网站均有销售,欢迎感兴趣...

    2016-01-11 19:30
    93684
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部