1: 下载源码
2:解压spark-2.2.1.tgz
3: 配置环境:
意思是 maven版本至少要3.3.9 ,jdk 1.8 +
本人的环境 :
jdk1.8.0
maven 3.3.9
scala 2.11
4:进入spark源码目录,修改pom.xml
添加 支持CDH的repositorie
<repository>
<id>cloudera-releases</id>
<name>cdh</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
5: 执行编译
mvn -PCDH -Phive -Phive-thriftserver -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package
6 编译后打包:
1:修改 dev/make-distribution.sh 里面的spark版本号 scala版本号 ,hadoop版本号,激活hive
VERSION=2.2.1
SCALA_VERSION=2.11
SPARK_HADOOP_VERSION=2.6.0-cdh5.7.0
SPARK_HIVE=1
(修改该参数目的是加快打包过程)
进入spark-2.2.1目录下执行
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Phive -Phive-thriftserver -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0
漫长等待后打包成功