利用Intellij IDEA构建开发环境

最新推荐文章于 2023-11-01 15:56:32 发布

久居妒海的猫_18

最新推荐文章于 2023-11-01 15:56:32 发布

阅读量455

点赞数

分类专栏： Spark 开发文章标签： intellij idea spark

本文链接：https://blog.csdn.net/qq_15027925/article/details/50912671

版权

Spark 开发专栏收录该内容

1 篇文章 0 订阅

订阅专栏

（1）准备工作

1）安装JDK 6或者JDK 7

2）安装scala 2.10.x (注意版本)

2）下载Intellij IDEA最新版（本文以IntelliJ IDEA Community Edition 13.1.1为例说明，不同版本，界面布局可能不同）：http://www.jetbrains.com/idea/download/

3）将下载的Intellij IDEA解压后，安装scala插件，流程如下：

依次选择“Configure”–> “Plugins”–> “Browse repositories”，输入scala，然后安装即可

（2）搭建Spark源码阅读环境（需要联网）

一种方法是直接依次选择“import project”–> 选择spark所在目录 –> “SBT”，之后intellij会自动识别SBT文件，并下载依赖的外部jar包，整个流程用时非常长，取决于机器的网络环境（不建议在windows下操作，可能遇到各种问题），一般需花费几十分钟到几个小时。注意，下载过程会用到git，因此应该事先安装了git。

第二种方法是首先在linux操作系统上生成intellij项目文件，然后在intellij IDEA中直接通过“Open Project”打开项目即可。在linux上生成intellij项目文件的方法（需要安装git，不需要安装scala，sbt会自动下载）是：在spark源代码根目录下，输入sbt/sbt gen-idea

注：如果你在windows下阅读源代码，建议先在linux下生成项目文件，然后导入到windows中的intellij IDEA中。

（3）搭建Spark开发环境

在intellij IDEA中创建scala project，并依次选择“File”–> “project structure” –> “Libraries”，选择“+”，将spark-hadoop 对应的包导入，比如导入spark-assembly_2.10-0.9.0-incubating-hadoop2.2.0.jar（只需导入该jar包，其他不需要），如果IDE没有识别scala 库，则需要以同样方式将scala库导入。之后开发scala程序即可：

编写完scala程序后，可以直接在intellij中，以local模式运行，方法如下：

点击“Run”–> “Run Configurations”，在弹出的框中对应栏中填写“local”，表示将该参数传递给main函数，如下图所示，之后点击“Run”–> “Run”运行程序即可。

可能的报错

在运行spark的测试程序SparkPi时，点击运行，出现了如下错误：

Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configuration
at org.apache.spark.SparkContext.<init>(SparkContext.scala:185)
at SparkPi$.main(SparkPi.scala:12)
at SparkPi.main(SparkPi.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:134)
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties

从提示中可以看出找不到程序运行的master，此时需要配置环境变量。

传递给spark的master url可以有如下几种：

local 本地单线程
local[K] 本地多线程（指定K个内核）
local[*] 本地多线程（指定所有可用内核）
spark://HOST:PORT 连接到指定的 Spark standalone cluster master，需要指定端口。
mesos://HOST:PORT 连接到指定的 Mesos 集群，需要指定端口。
yarn-client客户端模式 连接到 YARN 集群。需要配置 HADOOP_CONF_DIR。

yarn-cluster集群模式 连接到 YARN 集群。需要配置 HADOOP_CONF_DIR。

点击edit configuration，在左侧点击该项目。在右侧VM options中输入“-Dspark.master=local”，指示本程序本地单线程运行，再次运行即可。

配置如图：

久居妒海的猫_18

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用Intellij IDEA构建开发环境

（1）准备工作1）安装JDK 6或者JDK 72）安装scala 2.10.x (注意版本)2）下载Intellij IDEA最新版（本文以IntelliJ IDEA Community Edition 13.1.1为例说明，不同版本，界面布局可能不同）：http://www.jetbrains.com/idea/download/3）将下载的Intelli
复制链接

扫一扫