Spark源码系列（零）-如何开始分析Spark源码

shining_yyds

于 2021-08-11 17:22:27 发布

阅读量374

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/Dreamershi/article/details/119610801

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

如果想更深入的理解Spark，那么就需要深入去研究下源码实现。关于Spark源码下载可以到官方网站或者github进行下载，而阅读源码的最好方式就是调试，Spark源码调试有很多种办法，本文介绍一种我常用的调试方法。

在调试Spark代码之前，可以先找一台linux主机安装Spark，这里最简单的方式用local方式即可，只需要下载官网编译好的Spark安装包即可，当然也可以部署一套Standalone模式的SPark集群，或者使用Spark on Yarn模式（推荐这种方法，不过需要搭建一套Hadoop集群，使用YARN调度，HDFS作为文件存储，搭建可以使用Ambari），然后下载对应安装版本的Spark源码即可开始进行调试。

在开始调试源码之前，先对Spark源码整体做个梳理，源码主要包括以下几个方面：

Spark的初始化

SparkSession

SparkContext

SparkEnv

SparkConf

RpcEnv

SparkStatus

Tracker

SecurityManager

SparkUI

MetricsSystem

TaskScheduler

Spark的存储体系

SerializerManager

BroadcastManager

ShuffleManager

MemoryManager

NettyBlockTransferService

BlockManagerMaster

BlockManager

CacheManager

Spark的内存管理

MemoryManager

MemoryPool

ExecutionMemoryPool

StorageMemoryPool

MemoryStore

UnifiedMemoryManager

Spark的运算体系

LiveListenerBus

MapOutputTracker

DAGScheduler

TaskScheduler

ExecutorAllocationManager

OutputCommitCoordinator

ContextClearner

Spark的部署模式

LocalSparkCluster

Standalone

Mater/Executor/Worker的容错

Spark Streaming

StreamingContext

Receiver

Dstream

窗口操作

Spark SQL

Catalog

TreeNode

词法解析器

ParserRule

Executor

Analyzer与Optimizer

Hive SQL相关

了解清楚源码的大概脉络之后，就可以开始源码调试了。调试过程可以用最简单的测试代码，比如SparkPi或者WordCount程序，Spark源码自带了example，咱们直接通过命令行启动即可，只需要在driver或executor的JVM参数中加入debug参数，如下是我本地一条调试命令

spark-submit --master local
             --class org.apache.spark.examples.SparkPi
             --conf spark.driver.extraJavaOptions=-agentlib:jdwp=transport=dt_socket,server=y,sspend=y,address=5055
             spark-examples.jar

如需要调试YARN模式下代码，那么把--master参数设置为yarn即可，需要调试executor则设置

spark.executor.extraJavaOptions=-agentlib:jdwp=transport=dt_socket,server=y,sspend=y,address=5055

同时在Eclispe或Idea中打开Spark源码，然后设置Remote debug，修改debug的host地址即可

shining_yyds

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录