修改spark源码并编译部署

下载spark源码

spark官网下载spark源码的选择如下图:
下载源码
重点就是第二个选择source code然后点击第四个下载tgz包。
下载之后解压到你想要的目录下,这样你就获得了spark的源码。

安装maven

这里是使用maven对spark进行编译,当然要下载maven:点这里下载maven
老规矩下载只有解压到你需要的目录。
然后配置maven的环境变量如下:

export MAVEN_HOME=/home/ubuntu/maven
export MAVEN=$MAVEN_HOME/bin
export MAVEN_OPTS="Xms256m -Xmx512m"
export PATH=$MAVEN:$PATH

之后可以通过mvn –version来查看maven版本,如果出现版本信息说明安装成功。

编译spark源码

这里我们使用源码包中自带的make-distribution.sh文件进行编译。当然在编译之前你可以试着修改一些源代码。
在spark源码目录下运行

 ./make-distribution.sh --tgz -Phadoop-2.6 -Pyarn -DskipTests -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver  

参数解释:
-DskipTests,不执行测试用例,但编译测试用例类生成相应的class文件至target/test-classes下。
-Dhadoop.version 和-Phadoop: Hadoop 版本号,不加此参数时hadoop 版本为1.0.4 。
-Pyarn :是否支持Hadoop YARN ,不加参数时为不支持yarn 。
-Phive和-Phive-thriftserver:是否在Spark SQL 中支持hive ,不加此参数时为不支持hive 。
–with-tachyon :是否支持内存文件系统Tachyon ,不加此参数时不支持tachyon 。
–tgz :在根目录下生成 spark-$VERSION-bin.tgz ,不加此参数时不生成tgz 文件,只生成/dist 目录。

ps:以前的–with-hive –with-yarn都不再支持了

这样大概要等二十分钟到一个多小时不等,主要取决于网络环境,因为要下载一些依赖包之类的。之后你就可以获得一个spark编译好的包了,解压之后就可以部署到机器上了。

相关内容:

如何安装spark:
http://blog.csdn.net/fishseeker/article/details/61918138

如何在IDEA中调试spark程序:
http://blog.csdn.net/fishseeker/article/details/63741265

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值