idea快速构建spark 工程

最新推荐文章于 2025-09-20 23:49:35 发布

原创最新推荐文章于 2025-09-20 23:49:35 发布 · 494 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

spark 专栏收录该内容

1 篇文章

订阅专栏

本文介绍如何在IntelliJ IDEA中配置Scala环境并集成Spark，包括安装Scala、配置IDEA Scala插件、设置Spark环境及创建Scala项目等步骤。

idea 版本为：15.0.1, scala 为2.10.5

1、本地安装scala

下载最新版本然后安装
由于版本spark为1.3版本原因 scala请使用2.10.5版本

2、idea 安装scala插件

Plugins-->Browse repositories中输入Scala

3、在spark官网下载spark包
下载预编译版本spark-1.3.0-bin-hadoop2.4

4、在intellij IDEA中创建scala project

new -- > project --> scala 选择好相应的sdk

5、配置

并依次选择“File”–> “project structure” –> “Libraries”，选择“+”，将spark-hadoop 对应的包导入，
比如导入spark-assembly-1.3.0-hadoop2.4.0.jar（只需导入该jar包，其他不需要），如果IDE没有识别scala 库，则需要以同样方式将scala库导入。
之后开发scala程序即可。

依次选择“File”–> “Project Structure” –> “Artifact”，选择“+”–> “Jar” –> “From Modules with dependencies”，选择main函数，并在弹出框中选择输出jar位置，

去掉scala和hadoop的依赖包 (一般集群上会有相应的包，所以无需打包)

并选择“OK”。

6、开发、部署

编写相应的scala 代码

最后依次选择IDEA菜单的“Build”–> “Build Artifact” --> build 编译生成jar包。

提交到集群

/opt/spark/default/bin/spark-submit --class com.youku.laifeng.HelloWord --master yarn-cluster /home/yule/shenweifeng/spark_java-0.0.1-SNAPSHOT.jar /input /output --num-executors 3 --driver-memory 3g --executor-memory 6g