Spark2.4源码编译，以支持CDH

最新推荐文章于 2021-05-04 23:47:25 发布

weixin_38163331

最新推荐文章于 2021-05-04 23:47:25 发布

阅读量684

点赞数

本文链接：https://blog.csdn.net/weixin_38163331/article/details/89791384

版权

Spark2.4源码编译，以支持CDH

Spark2.4源码编译，参照官网文档：http://spark.apache.org/docs/latest/building-spark.html ，参考文档，我们需要准备：

首先需要下载并解压 Spark2.4 ，Maven 和 JDK，并配置环境变量：
注意点，以下可以加快编译速度：
1.编译使用的虚拟机，内存最好>=4G。如果内存太小，将会长时间编译不完，亲身体会，说多了都是泪呀。
2.Maven 添加阿里云的镜像下载地址

3.因为我们使用的是CDH 的版本，需要在Spark的pom.xml中添加

4.需要修改Spark目录下：/dev/make-distribution.sh，下图红色方框的部分注释掉，直接在下边写上使用的Spark版本：VERSION=2.4.2; Scala版本：SCALA_VERSION=2.11； Hadoop版本：SPARK_HADOOP_VERSION=2.6.0-cdh5.7.0；
支持hive：SPARK_HIVE=1。这样操作会节省大量时间。
前期准备完成，在Spark目录下使用命令编译：./dev./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Phadoop-2.6 -Phive-thriftserver -Pyarn -Pkubernetes -Dhadoop.version=2.6.0-cdh5.7.0
然后就是等待，编译成功如下图：

关注