Spark2.1.0——广播管理器BroadcastManager

BroadcastManager用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。如果为了容灾,也会复制到其他节点上。创建BroadcastManager的代码实现如下。 val broadcastManager = new BroadcastMa...

2019-04-28 10:25:32

阅读数 493

评论数 0

Spark2.1.0——存储体系概述

本书在5.7节曾介绍过存储体系的创建,那时只为帮助读者了解SparkEnv,现在是时候对Spark的存储体系进行详细的分析了。简单来讲,Spark存储体系是各个Driver、Executor实例中的BlockManager所组成的。但是从一个整体出发,把各个节点的BlockManager看成存储体...

2019-04-09 15:49:38

阅读数 16365

评论数 0

Spark常见故障诊断(一)

本人维护的Spark主要运行在三个Hadoop集群上,此外还有其他一些小集群或者隐私集群。这些机器加起来有三万台左右。目前运维的Spark主要有Spark2.3和Spark1.6两个版本。用户在使用的过程中难免会发生各种各样的问题,为了对经验进行沉淀,也为了给Spark用户提供一些借鉴,这里将对各...

2019-04-01 09:29:18

阅读数 1167

评论数 0

Spark2.1.0——Spark环境更新

阅读提示:本文是对SparkContext中对用户通过--jars(或spark.jars)和--files(或spark.files)参数添加的外部资源进行的分析。 用户提交任务时往往需要添加额外的jar包或其它文件,用户任务的执行将依赖这些文件。这些文件该如何指定?任务在各个节点上运行时又是...

2018-12-27 11:56:35

阅读数 441

评论数 4

Spark2.1.0——ContextCleaner的工作原理分析

ContextCleaner是SparkContext中的组件之一。ContextCleaner用于清理那些超出应用范围的RDD、Shuffle对应的map任务状态、Shuffle元数据、Broadcast对象以及RDD的Checkpoint数据。 创建ContextCleaner 创建Con...

2018-12-17 09:54:32

阅读数 5475

评论数 1

Spark2.1.0——Executor动态分配的实现原理

         ExecutorAllocationManager的作用已在《Spark2.1.0——SparkContext概述》一文有过介绍,更为准确地说,ExecutorAllocationManager是基于工作负载动态分配和删除Executor的代理。简单讲,ExecutorAlloc...

2018-12-10 09:43:15

阅读数 6209

评论数 0

Spark2.1.0——创建SparkUI的分析

阅读建议:阅读本文前,最好先阅读《Spark2.1.0——SparkUI的实现》和《Spark2.1.0——WebUI框架体系》。          在SparkContext的初始化过程中,会创建SparkUI。有了对WebUI的总体认识,现在是时候了解SparkContext是如何构造Spa...

2018-12-03 09:47:25

阅读数 432

评论数 0

Spark2.1.0——WebUI框架体系

阅读建议:阅读本文前最好先阅读《Spark2.1.0——SparkUI的实现》一文。          Spark UI构建在WebUI的框架体系之上,因此应当首先了解WebUI。WebUI定义了一种Web界面展现的框架,并提供返回Json格式数据的Web服务。WebUI用于展示一组标签页,We...

2018-11-20 09:53:34

阅读数 956

评论数 2

Spark2.1.0——SparkUI的实现

任何系统都需要提供监控功能,否则在运行期间发生一些异常时,我们将会束手无策。也许有人说,可以增加日志来解决这个问题。日志只能解决你的程序逻辑在运行期的监控,进而发现Bug,以及提供对业务有帮助的调试信息。当你的JVM进程奔溃或者程序响应速度很慢时,这些日志将毫无用处。好在JVM提供了jstat、j...

2018-11-20 09:53:05

阅读数 2959

评论数 9

Spark2.1.0——SparkContext初始化之Spark环境的创建

阅读指导:在《Spark2.1.0——SparkContext概述》一文中,曾经简单介绍了SparkEnv。本节内容将详细介绍SparkEnv的创建过程。          在Spark中,凡是需要执行任务的地方就需要SparkEnv。在生产环境中,SparkEnv往往运行于不同节点的Execu...

2018-11-16 09:48:37

阅读数 325

评论数 0

Spark2.1.0——SparkContext概述

Spark应用程序的提交离不开Spark Driver,后者是驱动应用程序在Spark集群上执行的原动力。了解Spark Driver的初始化,有助于读者理解Spark应用程序与Spark Driver的关系。 Spark Driver的初始化始终围绕着SparkContext的初始化。Spar...

2018-11-12 10:07:23

阅读数 1150

评论数 0

浅谈——程序员的自我革命

        在程序员这条道路上走过了十一年,即将迎来第十二个年头。之后是否是一个新的轮回?十一年前,从高校毕业后去哪里是当时首要考虑的问题。早在大二第二学期时就没有了要考研的打算,经常翘课回到宿舍鼓捣各种计算机软件,还记得当时最感兴趣的就是3DsMax和Flash了。这两款软件在那时风靡全球,...

2018-10-29 10:17:42

阅读数 5289

评论数 34

深入浅出Spark2.1.0度量系统——Sink继承体系

阅读提示:阅读本文前,最好请阅读《Spark2.1.0——深入浅出度量系统》和《深入浅出Spark2.1.0度量系统——Source继承体系》。          Source准备好度量数据后,我们就需要考虑如何输出和使用的问题。这里介绍一些常见的度量输出方式:阿里数据部门采用的一种度量使用方式...

2018-10-09 19:06:59

阅读数 1495

评论数 9

深入浅出Spark2.1.0度量系统——Source继承体系

阅读提示:阅读本文前,最好请阅读《Spark2.1.0——深入浅出度量系统》一文。          任何监控都离不开度量数据的采集,离线的数据采集很容易做到和被采集模块之间的解耦,但是对于实时度量数据,尤其是那些内存中数据的采集就很难解耦。这就类似于网页监控数据的埋点一样,你要在网页中加入一段...

2018-10-09 19:06:45

阅读数 1035

评论数 7

Spark2.1.0——深入浅出度量系统

对于一个系统而言,首先考虑要满足一些业务场景,并实现功能。随着系统功能越来越多,代码量级越来越高,系统的可维护性、可测试性、性能都会成为新的挑战,这时监控功能就变得越来越重要了。在国内,绝大多数IT公司的项目都以业务为导向,以完成功能为目标,这些项目在立项、设计、开发、上线的各个阶段,很少有人会考...

2018-10-09 09:50:31

阅读数 3199

评论数 7

Spark2.1.0事件总线分析——LiveListenerBus详解

阅读提示:阅读本文前,最好先阅读《Spark2.1.0之源码分析——事件总线》、《Spark2.1.0事件总线分析——ListenerBus的继承体系》及《Spark2.1.0事件总线分析——SparkListenerBus详解》几篇文章的内容。 LiveListenerBus继承了SparkL...

2018-09-27 09:39:49

阅读数 1081

评论数 6

Spark2.1.0事件总线分析——SparkListenerBus详解

阅读提示:阅读本文前,最好先阅读《Spark2.1.0之源码分析——事件总线》和《Spark2.1.0事件总线分析——ListenerBus的继承体系》。          有了《Spark2.1.0之源码分析——事件总线》文中对ListenerBus的定义及《Spark2.1.0事件总线分析—...

2018-09-18 10:07:03

阅读数 693

评论数 0

Spark2.1.0事件总线分析——ListenerBus的继承体系

阅读提示:阅读本文前,最好先阅读《Spark2.1.0之源码分析——事件总线》。          通过阅读《Spark2.1.0之源码分析——事件总线》一文,理解了ListenerBus的定义后,本小节一起来看看有哪些类继承了它。ListenerBus的类继承体系如图1所示。 图1  Li...

2018-09-11 09:43:08

阅读数 400

评论数 0

Spark2.1.0之源码分析——事件总线

         Spark定义了一个特质[1]ListenerBus,可以接收事件并且将事件提交到对应事件的监听器。为了对ListenerBus有个直观的理解,我们先来看看它的代码实现,见代码清单1。 代码清单1        ListenerBus的定义 private[spark] t...

2018-09-03 10:14:20

阅读数 3500

评论数 0

spark2.1.0之源码分析——RPC客户端TransportClient详解

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——RPC...

2018-08-28 10:48:46

阅读数 1212

评论数 2

提示
确定要删除当前文章?
取消 删除