一、编译spark方法
1.编译环境
首先,需要安装jdk、maven,相关安装教程请参考:http://blog.csdn.net/u012829611/article/details/77651855
http://blog.csdn.net/u012829611/article/details/77678609
笔者安装的jdk1.7、maven3.3.9.
然后,在官网下载spark源码(http://spark.apache.org/downloads.html),我这里选择的版本是spark-1.6.2.tgz
把源码包解压:
[root@localhost soft-cy]# tar -zxvf spark-1.6.2.tgz
[root@localhost soft-cy]# cd spark-1.6.2
2.两种编译方法
①用build/mvn 来编译(采用)
[root@localhost spark-1.6.2]# build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -DskipTests clean package
(-Pyarn 提供yarn支持 ,—Phadoop-2.7 提供Hadoop支持,并且指定hadoop的版本2.7.3)
编译完成后,你会发现在assembly/target/scala-2.10目录下面有一个spark-assembly-1.6.2-hadoop2.7.3.jar包,这个就是编译的结果。
②用make-distributed 脚本来编译
[root@localhost spark-1.6.2