Spark源码分析
真正的手把手带你读Spark源码
merrily01
Talk is cheap 、show me the code .
展开
-
IDEA中Spark源码接口或方法少实现类
1. 现象:举例说明如:SparkApplication # start方法,被多个类重写,但有时候点左侧overrides看实现状况时,可能会缺少某几个类的实现调用;2. 原因:比如缺少yarn或kubernetes具体类的实现,原因一般是因为Spark项目中module的引用出了问题;我的问题是因为总切换2.4和3.0版本,modules中各个模块同时引入了2.11和2.12版本,module引用冲突导致的;3. 解决办法:File -> Project..原创 2020-12-16 10:48:32 · 221 阅读 · 2 评论 -
spark触发adaptive skewed join的例子code
1. 启动spark-shell,参数如下:spark-shell --conf spark.driver.allowMultipleContexts=true --conf spark.sql.adaptive.maxNumPostShufflePartitions=5 --conf spark.shuffle.statistics.verbose=true --conf spark.sql.adaptive.enabled=true --conf spark.sql.autoBroadcastJo原创 2020-11-18 23:34:29 · 408 阅读 · 0 评论 -
Spark编码格式校验,引包顺序
import顺序,空行以及格式:java.*scala.*第三方包按字母序如com.*org.*org.apache.spark.*原创 2020-07-28 11:32:51 · 226 阅读 · 0 评论 -
Spark源码分析-应用程序到底是如何提交到Spark并运行的?
网上有不少关于Spark应用程序提交流程分析的文章,有的鞭辟入里、有的浅尝辄止。但由于Spark代码版本更迭或关注点的缘故,总有一些自己想知道的细节不能系统的获取。所以打算基于spark-2.4.4(3.0-release版本还未发版),记录下自己对Spark应用程序提交和运行流程源码的一些分析和理解,同时通过打断点代码调试的方式,将完整的代码执行流程分享给大家,希望能做到真正的手把手带你读Spa...原创 2019-11-08 15:47:07 · 211 阅读 · 0 评论 -
搭建Spark源码阅读环境——Spark源码编译及本地调试
搭建Spark源码阅读环境——Spark源码编译及本地调试原创 2019-10-31 19:13:20 · 398 阅读 · 0 评论 -
linux下查看进程信息的方法
三个命令:1. jps 找到目标进程的pid;2. jinfo pid , 可以看进程相关参数等信息;2. jstack pid, 可以看到进程中各个线程的方法调用栈信息;原创 2019-10-31 18:09:00 · 641 阅读 · 0 评论 -
Spark源码分析(零):一定要学会的Spark源码远程调试方法remote debug
1. IDEA配置remote debug:2. 客户端设置监听:export SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=9001"3. 客户端提交任务(启动Spark),可以看到监听生效:Listening for ...原创 2019-07-15 10:18:41 · 385 阅读 · 0 评论