spark应用程序的开发可以在本地,也可以在集群模式下。使用IDEA与使用eclipse开发的步骤基本一致,程序内容完全一样,只是对集成开发环境的操作有所不同。
一、安装IDEA集成开发环境
1、(https://www.jetbrains.com/idea/)在这个连接下可以下载各种版本的IDEA,可以选择Windows,Linux,Mac三种环境。
2、直接安装IDEA即可,安装过程中会提示你安装Scala插件,选择install可以安装,也可以略过这个步骤。在安装完IDEA后自己去下载一个Scala插件(http://plugins.jetbrains.com/plugin/?idea&id=1347)。
3、打开IDEA -> 选择plugin -> 点击browse from disk 选择你下载的Scala插件即可。
二、编写spark应用程序
1、点击File -> Project 填写project name 以及文件保存位置,
Project SDK点击new 选择你再本地安装的SDK,Scala SDK选择Create点击你刚才安装的ScalaSDK。点击finish即可。
2、生成入下图所示的工程,单击File -->> 选择Project Structure,点击那个绿色的加号,选择你解压后的spark,比如我的点击加号,选择E盘,找到spark的目录,选择spark-1.6.2-bin-hadoop2.6 -->> 选择lib,选择spark-assembly-1.6.2-hadoop2.6.0.jar,点击OK即可。或生成如下所示:
3、创建Spark应用程序
选中WordCount下面的src.,右键 -> new -> package ,填写包名,此处填写WordCount,然后再选中WordCount包 -> 右键 -> new -> scala class 将kind改为object,填写
name,此处写为WordCount,生成图如下所示:
此时就可以编写应用程序了。
3、编写玩应用程序之后,打包生成jar文件。
点击FIle -> Project Structure -> Artifacts -> 点击加号 -> jar -> From Modules With Dependencies -> Main Class -> WordCount -> 生成如下图所示
选中所有带有Extracted,点击减号,因为这是一些依赖的文件,在你搭建的Spark集群中都有。去掉之后变成这样:
点击OK
4、在应用程序开发界面,点击Build -> build artifacts -> WordCount -> Build 之后就会生成jar包
将生成的jar包复制到Linux下。
5、启动Hadoop,Spark集群。不用启动Scala。
6、可以使用命令行执行你的jar包,也可以使用shell文件执行jar包,二者其实本质是一样的,只不过shell文件是你再命令行时使用的指令,打包成一个文件。
此处用命令。进入你的spark的bin文件下,执行
./spark-submit --class com.dt.spark.WordCount --master spark://Master:7077 /home/vmuser/SparkApps/3、WordCount.jar
运行结果如上图所示。