Apache版本,jdk1.8,spark2.1.0,hadoop2.6.0,scala2.11.8,maven3.6.0
在编译spark之前,jdk,scala,hadoop,maven都要安装完成,此处省略这些安装
1、git clone代码
git clone https://github.com/apache/spark.git
du -sh spark 查看sprk下载大小
切换目录 git checkout v2.1.0
2、查看官网文档 http://spark.apache.org/docs/2.1.0/building-spark.html
3、编译
修改mvn为自己安装的mvn,修改make-distribution.sh脚本文件,修改mvn路径配置
./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -DskipTests clean package
./dev/make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.6 -Phive -Phive-thriftserver -Pmesos -Pyarn
4、注意事项
1) 多试几次确保所需的依赖能正常下载
2)个别的包可能需要手工下载并安装到本地仓库
3)mvn install:install-file -DgroupId=org.spark-project.hive -DartifactId=hive-jdbc -Dversion=1.2.1.spark2 -Dpackaging=jar -Dfile=C:\Users\lifei\Downloads\hive-jdbc-1.2.1.spark2.jar