源码编译:
$ export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
./make-distribution.sh --skip-java-test --name cdh5 --tgz --mvn mvn -Dscala-2.10.4 -Dhadoop.version=2.5.0-cdh5.3.6 -Pyarn -Pspark-ganglia-lgpl -Phive -Phive-thriftserver -DskipTests
遇到问题:
最初编译后spark读取hdfs,出现protocol buffer版本不一致问题。spark1.4.1、cdh5.3.6
解决问题:
手动更改spark源码pom中hadoop版本与cdh中hadoop版本对应
spark安装:
一、安装jdk
略
二、安装scala
1、下载scala
http://www.scala-lang.org/
2、解压
tar -xzvf scala-2.10.4.tgz
3、配置环境变量
在/etc/profile中添加
export SCALA_HOME=/opt/scala/scala-2.10.4
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
4、使profile文件生效
source /etc/profile
5、解压编译好的spark,并配置环境变量
6、根据需求优化配置spark-env.sh、spark-defaults.conf