环境配置:
自行配置好IDEA、jdk
在spark官网下载spark-2.1.0-bin-hadoop2.7.tgz并解压,运行spark-shell检验是否可用
IDEA中添加SBT、scala插件
学习步骤建议:尽管网上很多写好的算法代码,spark初学者还是应从基本操作学起。否则用别人的代码跑,报错都不知道错在哪里
1.在spark-shell中尝试简单的scala代码实现
2.用IDEA+SBT练习简单的Helloworld打印代码
3.用IDEA+SBT完成简单的jar打包练习,并在Spark本地模式运行成功
4.继续进阶....
正文:
1.IDEA中通过scala-SBT新建项目
//注意scala-sdk版本要和spark版本对应.
//IDEA自带插件版本是2.12.x,本文选择scala-2.11.x和spark2.1.0匹配
//不知道是不是必须这样。但是尝试其他版本会报错
//推荐使用SBT建立项目,最保险。我试过用scala-IDEA建项目,再自己修改目录、导入jar,会报object xxx is not a member of org.apache.spark.xxx这样的错
2.修改build.sbt文件
name := "SBTassemblyJar"
version := "1.0"
scalaVersion := "2.11.0"
libraryDependencies += "org.apache.spark"