1 下载Spark源码
下载源码到IDEA有两种方式:
- 利用 IDEA 的 git 插件。
进入Spark的GitHub源码地址,fork项目到自己的GitHub库,然后使用IDEA克隆项目到本地,
源码地址为:https://github.com/apache/spark - 到Spark官网下载源码。
源码地址:http://spark.apache.org/downloads.html
两种方式比较而言,第二种更快,本文选择第二种。
2 导入IDEA
下载源码后解压,然后打开IDEA,
找到文件夹地址,导入项目,选择从已存在的源码中创建项目
然后一直点击 Next,得到如下
发现Spark源码由很多模块组成,我们打开下面的pom文件,空白处右键,选择 Add as Maven Project
得到如下图所示
此时,Spark源码已经导入完毕!
3 修改、编译源码
此处不多说,根据自己的需求修改相应模块的代码并编译。
4 打包
4.1 模块打包
比如我们已经修改完毕SparkSQL的部分代码,准备只打SparkSQL的包,用来替换生产环境上的SparkSQL包,我们可以先设置 skip test,然后点击SparkSQL模块的Package。
成功后会在sql模块的目录下产生几个jar包文件,如下图:
4.2 整个打包
若要编译整个Project,在maven管理界面中选择带有 root 标识的进行打包即可。
当然,编译过程可能会遇到各种问题,参考:https://blog.csdn.net/u011464774/article/details/76704785