spark源码编译--基于spark1.5.2和hadoop2.6.1
环境准备
spark的源码是用scala编写的,这里我们首先需要的是配置scala的环境变量,注意spark1.5.2的在用maven编译源码的时候需要的是mave3.3.3的版本,不要搞错了。这里的环境不想hadoop编译那样的麻烦,只需要mave3.3.3以上的版本以及向对应scala版本就可以。
export MAVEN_HOME=/opt/modules/apache-maven-3.3.3
export PATH=
PATH:
MAVEN_HOME/bin
export SCALA_HOME=/opt/modules/scala-2.11.5
export PATH=
PATH:
SCALA_HOME/bin
maven镜像配置
改变仓库地址
/opt/datas/.m2/repository
添加一个开源中国的镜像
nexus-osc
*
Nexus osc
http://maven.oschina.net/content/groups/public/
打开spark下的make-distribution.sh文件
更改下面的value
SCALA_VERSION=2.10//最好和自己本地的版本一直
SPARK_HADOOP_VERSION=2.5.0
SPARK_HIVE=1//1代表支持hive,0不支持
运行命令
./make-distribution.sh
–name spark-1.5.2-hadoop-2.6.1-bin
–tgz -Phadoop-2.6 -Dhadoop.version=2.6.1
-Phive -Phive-thriftserver
40分钟左右后会看到编译成功的二进制文件