一.准备工作:
安装jdk1.7+,如已安装可跳过此步,本文使用的是jdk1.7.0_17。
二.下载官方的spark源码
此处使用的是spark_1.6.2
1)将项目解压,进入根目录。
2)配置java_home变量 :export JAVA_HOME=/root/jdk1.7.0_17(此处的jdk路径根据自身情况而定)
export PATH=$JAVA_HOME/bin:$PATH
3)设置maven的可用内存:export MAVEN_OPTS="-Xmx3g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
4)在此处检查一下jdk是否可用,输入: java -version
如果可以正常显示版本号则可用,否则要检查一下JAVA_HOME路径是否有误。
5)从当前目录递归处理添加所有用户的执行权限: chmod a+x -R .
6) 添加yarn支持 添加hadoop支持 设定hadoop版本号 添加hive支持 添加jdbc支持 是否忽略测试 清理包
build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.2 -Phive -Phive-thriftserver -DskipTests -Dmaven.test.skip=true clean package
7)再次执行:chmod a+x -R .
注:在编译过程中,有些依赖源在本地没有的Maven需要在网上下载,所以当编译Spark时最好能够确保设备能够连接网络,不然可能会出现一些问题。
关于Spark编译官方的帮助文档:Building Spark