idea 版本为:15.0.1, scala 为2.10.5
1、本地安装scala
下载 最新版本 然后安装
由于版本spark为1.3版本原因 scala请使用2.10.5版本
由于版本spark为1.3版本原因 scala请使用2.10.5版本
2、idea 安装scala插件
Plugins-->Browse repositories中输入Scala
3、在spark官网下载spark包
下载预编译版本spark-1.3.0-bin-hadoop2.4
下载预编译版本spark-1.3.0-bin-hadoop2.4
4、在intellij IDEA中创建scala project
new -- > project --> scala 选择好相应的sdk
5、配置
并依次选择“File”–> “project structure” –> “Libraries”,选择“+”,将spark-hadoop 对应的包导入,
比如导入spark-assembly-1.3.0-hadoop2.4.0.jar(只需导入该jar包,其他不需要),如果IDE没有识别scala 库,则需要以同样方式将scala库导入。
之后开发scala程序即可。
比如导入spark-assembly-1.3.0-hadoop2.4.0.jar(只需导入该jar包,其他不需要),如果IDE没有识别scala 库,则需要以同样方式将scala库导入。
之后开发scala程序即可。
依次选择“File”–> “Project Structure” –> “Artifact”,选择“+”–> “Jar” –> “From Modules with dependencies”,选择main函数,并在弹出框中选择输出jar位置,
去掉scala和hadoop的依赖包 (一般集群上会有相应的包,所以无需打包)
并选择“OK”。
6、开发、部署
编写相应的scala 代码
最后依次选择IDEA菜单的“Build”–> “Build Artifact” --> build 编译生成jar包。
提交到集群
/opt/spark/default/bin/spark-submit --class com.youku.laifeng.HelloWord --master yarn-cluster /home/yule/shenweifeng/spark_java-0.0.1-SNAPSHOT.jar /input /output --num-executors 3 --driver-memory 3g --executor-memory 6g