Spark编译

1.环境
CentOS6.4
hadoop 主机名
app 存放安装软件目录
software存放软件包tar
data 存放我们的测试数据
lib 存放我们自己的jar
source 存放源码
2.官网下载spark源码
[root@hadoop ~]# wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0.tgz
3.解压 tar -zxvf 所有的文件(Java maven scala) cp到app文件夹中 配置环境变量
4.看官网 http://spark.apache.org/docs/latest/building-spark.html
5.分析前置要求需求
apache-maven-3.3.9-bin.tar.gz
jdk-8u45-linux-x64.gz
Scala-2.11.8.tgz
hadoop-2.6.0-cdh5,7,0.tar.gz
6.maven内存调大
export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"
7.开发适合用:./build/mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package
8.打成tar包的方式./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Dhadoop.version=2.6.0-cdh5.7.0 -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn
9.修改make-distribution.sh文件,用脚本更快
shell输入 “/VERSION” 指令搜索到指定位置VERSION,注释掉这一段 追加
VERSION=2.2.0
SCALA_VERSION=2.11
SPARK_HADOOP_VERSION=2.6.0-cdh5.7.0
SPARK_HIVE=1
10.从中心仓库下载
shell输入 “/repositories” 指令搜索到指定位置 追加到spark的pom.xml文件后面
<repository>
<id>cloudera<id>
<name>cloudera Repository</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页