Spark 源码编译

最新推荐文章于 2022-10-21 15:51:04 发布

路飞DD

最新推荐文章于 2022-10-21 15:51:04 发布

阅读量227

点赞数 1

分类专栏：大数据 Spark Spark 文章标签： Spark Spark源码源码编译 Spark 编译

本文链接：https://blog.csdn.net/weixin_37417954/article/details/93862729

版权

大数据同时被 3 个专栏收录

25 篇文章 0 订阅

订阅专栏

Spark

21 篇文章 0 订阅

订阅专栏

Spark

21 篇文章 0 订阅

订阅专栏

-- 昨夜西风凋碧树，独上高楼，望尽天涯路

下载Spark

进入官网 http://spark.apache.org/

点击 Download 进行下载：

选择需要的版本，源码方式点击进行下载

点击 spark-2.4.3.tgz ，进入如下页面：

选择链接点击进行下载，也可以右键点击复制链接，在 Linux 执行如下命令进行下载：

wget http://mirror.bit.edu.cn/apache/spark/spark-2.4.3/spark-2.4.3.tgz

源码编译

解压下载好的源码包：

tar -zxvf spark-2.4.3.tgz

编译 Spark 需要用到 Maven 和 JDK，版本依赖如下，详见官网：http://spark.apache.org/docs/latest/building-spark.html

我的版本如下：

下面我们通过如下命令进行编译：

//进入到 spark-2.5.4 文件下执行如下命令
mvn -Pyarn -Phadoop-2.7 -Phive -Phive-thriftserver -Dhadoop.version=2.7.3 -DskipTests clean package

#-P 表示将什么类型的 profile 编译进去，我们编译 yarn hive hive-thriftserver hadoop
#-D 表示替换掉 properties 中的默认版本号

//除了直接使用 mvn 编译之外，还可以通过 Spark 提供的脚本进行编译，使用方法和上面的 mvn 编译相同
./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Psparkr -Phadoop-2.7 -Phive -Phive-thriftserver -Pmesos -Pyarn -Pkubernetes

通过查看 spark 的 pom 我们可以发现 properties 和 profile 的配置如下：