Spark on yarn执行流程源代码分析
目前的分析主要基于spark0.9.0的cdh5的版本进行分析,
源代码下载地址:https://github.com/cloudera/spark.git
下载方式:gitclone url ./spark
进入spark目录,执行gitcheckout cdh5-0.9.0_5.0.0
源代码编译
使用sbt编译spark
运行sbt命令需要使用http代理,不然连接不上网络,进入sbt/目录,使用vimsbt修改里面的内容,
在最下面java命令的第二行添加-Dhttp.proxyHost=myserver-Dhttp.proxyPort=port \
运行如下命令编译spark
SPARK_HADOOP_VERSION=2.3.0-cdh5.0.0SPARK_YARN=true sbt/sbt assembly
SPARK_HADOOP_VERSION后是hadoop的版本号,
SPARK_HADOOP_VERSION=2.2.0sbt/sbt assembly
Inaddition, if you wish to run Spark on YARN,set SPARK_YARN to true:
SPARK_HADOOP_VERSION=2.0.5-alphaSPARK_YARN=true sbt/sbt assembly