使用scala编写spark脚本的话,可以直接在spark-shell中运行,如果要提交整个脚本的话,就必须将scala脚本编译成Jar包,然后通过spark-submit 提交Jar包给spark集群,当需要重复利用脚本的话一般是需要编译成Jar包的,所以后面会介绍下怎么将scala编译成Jar包,前面则会介绍下怎么搭建spark-scala的开发环境,同时使用IntelliJ Idea编写scala脚本。
一 环境搭建
平台:Mac book 64位 OS X ver10.11.3 (windows和linux可借鉴,可能有点小区别)
依次安装如下软件:
1、Java
下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
任选一个即可,本文选用的版本
JDK8ver 1.8都可以
将下载文件解压即可,在控制台输入Java –version出现如下字样安装成功。
如果安装了控制台却出不来以上结果,可按照第3步scala的环境配置操作一样添加Java环境变量。
2、spark
下载地址:http://spark.apache.org/downloads.html
本文选用的版本
1.5.1(Oct 02 2015)
Pre-Built forHadoop 1.X
将下载文件解压即可,pre-build已经事先编译好了</