1.软件环境
本人系统环境是windows7,IDE 为idea2016
本次编译是通过maven编译,Maven版本为3.3.9,不用SBT编译
自Spark 2.2.0起,对Java 7的支持已被删除!
给Maven多配置一点内存,防止编译期间OOM异常,官网推荐
export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"
Git
Jdk1.8,spark 1.0以上jdk1.7就不能用了
Maven3.9 安装教程:https://www.yiibai.com/maven/maven_environment_setup.html
https://www.jianshu.com/p/ee54d9b342f4
Scala 2.11.8 安装可参考http://www.runoob.com/scala/scala-install.html
IDE 为idea2017
本人源码spark版本是2.3.3
建议修改maven的安装目录下的conf/settings.xml文件中添加如下配置,以达到jar下载加速的效果
alimaven aliyun maven http://maven.aliyun.com/nexus/content/groups/public/ central2.下载spark源码
3.执行命令:进入git bash—>进入spark源码目录下,输入:cd f:/源码位置
mvn -DskipTests clean package
(spark编译要在 bash环境下进行 如git的bash环境,否则可能报错)
30-40分钟左右出现结果。
4.导入IDE
a.选择解压的源代码文件夹
b.使用maven导入工程
点next
c.选择对应组件的版本
然后点击下一步
点finish后,等Maven下载相关包
5.运行spark自带示例(前提:需要配置spark在windows下的运行环境,
参见win7下配置spark:https://www.cnblogs.com/lyy-blog/p/9620454.html
https://www.cnblogs.com/xuliangxing/p/7279662.html
SparkPi运行步骤见该网址https://www.cnblogs.com/lyy-blog/p/9856824.html