Spark2.4源码编译,以支持CDH
- Spark2.4源码编译,参照官网文档:http://spark.apache.org/docs/latest/building-spark.html ,参考文档,我们需要准备:
- Maven 3.5.4+
- Java 8
- Spark2.4.2
-
首先需要下载并解压 Spark2.4 ,Maven 和 JDK,并配置环境变量:
-
注意点,以下可以加快编译速度:
1.编译使用的虚拟机,内存最好>=4G。如果内存太小,将会长时间编译不完,亲身体会,说多了都是泪呀。
2.Maven 添加阿里云的镜像下载地址
3.因为我们使用的是CDH 的版本,需要在Spark的pom.xml中添加
4.需要修改Spark目录下:/dev/make-distribution.sh,下图红色方框的部分注释掉,直接在下边写上使用的Spark版本:VERSION=2.4.2; Scala版本:SCALA_VERSION=2.11; Hadoop版本:SPARK_HADOOP_VERSION=2.6.0-cdh5.7.0;
支持hive:SPARK_HIVE=1。这样操作会节省大量时间。
-
前期准备完成,在Spark目录下使用命令编译:./dev./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Phadoop-2.6 -Phive-thriftserver -Pyarn -Pkubernetes -Dhadoop.version=2.6.0-cdh5.7.0
-
然后就是等待,编译成功如下图: