1.环境准备
1.jdk1.8
2.maven 3.5
3.scala 2.11.8 - 编译时无需安装
4.hadoop 2.7.6 - 编译时无需安装
5.下载spark 2.2.3 源码 -- 是源码不是预编译后的可运行包
2.开始编译
2.1 进入 git bash
如果是安装了 sourceTree 的同学, 打开SourceTree通过下图方式打开 git bash
3.解压 spark源码包
4.在git bash 里 cd至spark 源码解压后的一级目录
例如我的路径是 E:\JollyCorp\yanfa\spark-2.2.3
5.编译命令执行
本文编译 hadoop, hive , yarn 的支持spark程序
#设置内存2G, 小了会内存溢出
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
# 编译
./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive -Phive-thriftserver -Pyarn -DskipTests clean package
6.之后就是漫长的下载依赖, 编译过程