Spark
啥都不会的硕士
这个作者很懒,什么都没留下…
展开
-
Spark 的shuffle流程框架以及源码详解(匠心巨作)(1)
spark 作为大数据的处理平台,因其优先使用内存资源,可以快速处理海量数据。spark 虽然号称内存计算,但是,并不是所有阶段都是在内存中完成的,spark shuffle的这一个环节是必须要写磁盘的。所以一个spark程序性能的高低,shuffle 过程有着决定性的作用。本编博客将会详细的分析spark 的shuffle过程,内容主要有以下几个方面,spark shuffle 的发展,shuf...原创 2018-11-26 09:47:02 · 752 阅读 · 0 评论 -
Spark Application的注册
1.简介Application 一般是指我们自己编写的程序,如果我们想要在Spark环境中运行这个程序,就需要把这个程序注册到集群中,向Master进行注册。本篇博客我们主要详细讲解Application的注册过程。同样以Standalone模式,源码版本为Spark-2.4.0SparkContext做为Spark程序的入口,充当着main函数的角色,所以我们从SparkContext中开始...原创 2019-02-13 15:49:42 · 660 阅读 · 0 评论 -
SparkContext的初始化
1.简介SparkContext作为Spark程序的入口,相当于程序的main函数,足以说明它的重要性。官方对于SparkContext的定义是下面这样的注释:/**Main entry point for Spark functionality. A SparkContext represents the connection to a Sparkcluster, and can be...原创 2019-02-13 11:26:41 · 391 阅读 · 0 评论 -
Spark Executor的启动
1.简介上一篇博客我们讲到了Application的注册,注册完成后,需要在相应的worker上启动Executor,用来执行分发的任务。所以本篇博客我们就来了解一下Executor的启动流程。源码版本为Spark-2.4.02.代码详解在完成Worker ,Driver,Application的注册后,都会调用Schedule的方法,进入到Master的schedule的方法里面:pri...原创 2019-02-15 10:49:32 · 590 阅读 · 0 评论 -
Spark Driver的启动
1,简介Driver 是什么,看一下官方给的解释: The process running the main() function of the application and creating the SparkContext。意思是运行应用程序的main函数并且创建SparkContext的进程。这里的应用程序就是我们自己编写并提交给Spark集群的程序。上图是Spark程序运行的框架图...原创 2019-01-29 13:31:19 · 1935 阅读 · 0 评论 -
Spark Submit任务提交流程
1,简介在上一篇博客中,我们详细介绍了Spark Standalone模式下集群的启动流程。在Spark 集群启动后,我们要想在集群上运行我们自己编写的程序,该如何做呢?本篇博客就主要介绍Spark Submit提交任务的流程。2,Spark 任务的提交我们可以从spark 的官网看到,spark-submit的提交格式如下:./bin/spark-submit –class –ma...原创 2019-01-25 16:49:14 · 5468 阅读 · 0 评论 -
Spark 集群启动的流程
1.简介源码版本spark-2.4.0Spark 作为目前大数据处理的主流架构,吸引了不少人去学习它,本人也不例外,对Spark抱有强烈的好奇心,因此对Spark在执行我们编写的程序时,到底是怎么运行的,是我一直想要搞明白的事情。所以从本篇博客开始,我就详细的介绍Spark执行程序的流程。一方面为了巩固自己所学的知识,另一方面也是为了抛转引玉,希望能有更多的人来介绍Spark.本篇博客为本系...原创 2019-01-24 15:46:00 · 3094 阅读 · 0 评论 -
Spark 的shuffle流程框架以及源码详解(匠心巨作)(3) 之UnsafeShuffleWriter
1. 简介Spark 的shuffle流程框架以及源码详解(匠心巨作)(1) 和 Spark 的shuffle流程框架以及源码详解(匠心巨作)(2)这两篇博客介绍了SparkShuffle的发展,以及BypassShuffleWriter的源码分析。本篇博客主要解析SparkShuffleWriter三种方式中的UnsafeShuffleWriter,它还有另外的一个名字,Tungsten-Sh...原创 2019-01-17 14:45:16 · 393 阅读 · 0 评论 -
SparkRDMA的环境安装
SparkRDMA的环境安装简介第一步:网络环境的搭建1,查看机器是否安装Mellanox网卡2,安装Mellanox驱动1) 下载相应的驱动并编译生成支持自己机器内核的驱动2)安装驱动3, 网络配置步骤二,SparkRDMA的安装以及环境配置1,首先下载SparkRDMA的包2,编译SparkRDMA-3.1源码3,编译生成 libdisni.so 文件4,配置spark简介Spark 问世...原创 2018-12-12 17:11:29 · 1189 阅读 · 2 评论 -
Spark CoarseGrainedExecutorBackend的启动
1 简介CoarseGrainedExecutorBackend是Executor的守护进程,用于Executor的创建和维护。CoarseGrainedExecutorBackend在spark运行期是一个单独的进程,我们可以在运行spark的期间,用jps命令查看一下,就可以看到这个进程。2 代码流程下面我们就来看一下CoarseGrainedExecutorBackend的启动。源码版...原创 2019-02-27 13:57:34 · 1091 阅读 · 0 评论