第一步:下载安装包 Windows下最新的ideaIC-2016.2.2.exe
第二步:本地java8 和Scala 2.11.8软件套件的安装
第三步:为IDEA安装Scala这个过程是IDEA自动化的插件管理,所以点击后会自动下载
第四步:指定JDK1.8.x和Scala 2.10.4
第五步:通过选择File -> Project Stucture来设置工程的Libraries,核心是添加Spark的jar
第六步:添加Spark的jar依赖
本地 和 集群 的程序区别:
1.本地添加 conf.setMaster(“local”)
2.val lines = sc.textFile(“hdfs://Master:9000/README”)读取地址不同
为什么不能IDE集成开发环境中直接发布Spark程序到Spark集群上
1.内存和Core的限制,默认情况下Spark程序的Driver会在提交Spark程序的机器上,所以如果在IDE中提交程序的话,那IDE机器就必须非常强大
2.Driver 要指挥 Workers的运行并频繁的发生通信,如果开发环境IDE和Spark集群不在同一个网络下,就会出现任务丢失,运行缓慢等多种不必要的问题
3.这是不安全的
在IDEA上打包程序的过程
File - project structure - Artifacts - Jar - FromModuleWithDependencies - Mainclass
Buid - Build Artifacts - Build
特别注意:把Spark和Scala的jar去掉
会在系统集群上寻找,减少包大小
在生产环境下一定是通过写自动化shell脚本来自动