编译spark2.1.0
目标
- 得到spark-2.1.0-bin-2.6.0-cdh5.7.0
环境
- jdk
- maven
- Apache Maven 3.3.9【3.3.9版】
- spark
settings.xml文件
。。。
<mirrors>
<mirror>
<id>nexus</id>
<mirrorOf>*,!cloudera</mirrorOf>
<url>http://repo1.maven.org/maven2/</url>
</mirror>
</mirrors>
。。。
pom.xml文件
。。。
<repository>
<id>cloudera</id>
<name>cloudera repository</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
。。。
环境变量/etc/profile中添加【编译机器内存可能不够】
export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"
执行
- 解压spark-2.1.0
- 执行脚本change-scala-version.sh 2.10【Scala版本是2.10 需要先执行如下的脚本】
- sh spark-2.1.0/dev/change-scala-version.sh 2.10
- 执行编译命令
- sh spark-2.1.0/dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0
- 等待编译完成【过程比较漫长】
编译过程可能非常长,遇到最后一个错误