Spark官网下载地址:
有两种一种是编译好的 一种是没编译的(需要自己编译) 看自己的选择
下载好的文件
解压之后可以看源码
直接用IDE工具打开就可以
从官网下载需要的版本https://archive.apache.org/dist/spark/
解压文件
编译前的环境准备
Maven 3.3.9+
jdk7以上
scala 2.11+
注意:在配置java之前,需要检查以下Linux是否有自带jdk,如果有的话,先删除,然后再解压jdk进行配置
用以下命令去检查
rpm -qa | grep java
这里是我自己下载的就不删除了
卸载: rpm -e --nodeps xxxxxx aaaaa ddddd
在环境变量中配置以下三个环境变量
#JAVA_HOMEexport JAVA_HOME=/opt/modules/jdk1.8.0_11export PATH=$PATH:$JAVA_HOME/bin#MAVEN_HOMEexport MAVEN_HOME=/opt/modules/apache-maven-3.3.9export PATH=$PATH:$MAVEN_HOME/bin#SCALA_HOMEexport SCALA_HOME=/opt/modules/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin
使用shell命令进行编译(spark源码主目录下)执行
./dev/make-distribution.sh --name 2.7.3 --tgz -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive -Phive-thriftserver -Pyarn -DskipTests-Dscala-2.11
-Pyarn:表示支持yarn
-Phadoop-2.7:表示支持hadoop的大版本
-Dhadoop.version=2.6.0-cdh5.7.0:具体的hadoop版本
-Phive -Phive-thriftserver :支持hive和hive-thrifserver
-Dscala-2.11:表示对应的scala版本
需要等一段时间
注意事项
虚拟机内存最好4G以上,重启虚拟机再编译
编译失败:网络不好、内存不够
如果编译cdh版本,需要改一下仓库url
clouderacloudera Repositoryhttps://repository.cloudera.com/artifactory/cloudera-repos
这样就成功了
编译就完成了