如何使用intellij搭建spark开发环境(下)

转载 2015年07月08日 11:26:01

本文转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%BAspark%E5%BC%80%E5%8F%91%E7%8E%AF%E5%A2%83%EF%BC%88%E4%B8%8B%EF%BC%89/,所有权力归原作者所有。


(接上文)上一篇如何使用intellij搭建spark开发环境(上)已经部分概述了在intellij中搭建spark开发环境的方法,不过需要注意的是上文中所有示例程序都是本地运行的,那么如何将spark程序在集群上运行呢?

(3) 将spark程序打包

目前为止,我还没有找到在intellij中让spark直接在集群中运行的方法,通常的做法是先用intellij把已经编写好的spark程序打包,然后通过命令spark-submit的方式把jar包上传到集群中运行。

生成程序包之前要先建立一个artifacts,File -> Project Structure -> Artifacts  -> + -> Jars -> From moudles with dependencies,然后随便选一个class作为主class。

Screen Shot 2014-10-11 at 8.04.44 PM

按OK后,对artifacts进行配置,修改Name为hello1,删除Output Layout中hello1.jar中的几个依赖包,只剩hello1项目本身:

Screen Shot 2014-10-11 at 8.07.11 PM

按OK后, Build -> Build Artifacts -> hello1 -> build进行打包,经过编译后,程序包放置在out/artifacts/hello1目录下,文件名为hello1.jar。

(4) 将jar包提交到集群中运行

在命令行中通过spark-submit方法提交任务即可:

spark-submit --class hello1.SparkPi --master spark://localhost:7077 out/artifacts/hello1/hello1.jar

其中–class参数制定了我们刚才已打jar包的主类, –master参数制定了我们spark集群中master实例的身份。关于spark-submit参数的更多用法,可以通过spark-submit  –help命令查看。

(5)搭建Spark源码阅读环境(需要联网)

刚才我们自己实现了一个spark的应用程序,如果想要窥视下spark本身的核心源码要怎么办呢,很简单

一种方法是直接依次选择“import project”–> 选择spark所在目录 –> “SBT”,之后intellij会自动识别SBT文件,并下载依赖的外部jar包,整个流程用时非常长,取决于机器的网络环境(不建议在windows下操作,可能遇到各种问题),一般需花费几十分钟到几个小时。注意,下载过程会用到git,因此应该事先安装了git。

第二种方法是首先在linux操作系统上生成intellij项目文件,然后在intellij IDEA中直接通过“Open Project”打开项目即可。在linux上生成intellij项目文件的方法(需要安装git,不需要安装scala,sbt会自动下载)是:在spark源代码根目录下,输入sbt/sbt gen-idea

注:如果你在windows下阅读源代码,建议先在linux下生成项目文件,然后导入到windows中的intellij IDEA中。

 

参考链接:

http://www.aboutyun.com/thread-8404-1-1.html

http://dongxicheng.org/framework-on-yarn/apache-spark-intellij-idea/

Spark shuffle:hash和sort性能对比

我们都知道Hadoop中的shuffle(不知道原理?可以参见《MapReduce:详细介绍Shuffle的执行过程》),Hadoop中的shuffle是连接map和reduce之间的桥梁,它是基于排...

【Spark大数据处理】动手写WordCount

本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=207906066&idx=1&sn=f9cc48a55343684c69165254...

Intellij IDEA 搭建Spark开发环境说明

  • 2016年07月04日 08:54
  • 886KB
  • 下载

如何使用IntelliJ IDEA搭建spark开发环境(上)

本文转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%B...

使用Intellij Idea搭建Spark开发环境

环境:Cent OS 6.7 jdk1.8.0_101 Spark-1.6.3-bin-hadoop2.6.tgz 下载安装包前去官网下载Spark-1.6.3-bin-hadoop2.6.tgz;或...

Intellij Idea搭建Spark开发环境

在Spark快速入门指南 – Spark安装与基础使用中介绍了Spark的安装与配置,在那里还介绍了使用spark-submit提交应用,不过不能使用vim来开发Spark应用,放着IDE的方便不用。...

Intellij IDEA开发环境搭建,scala配置及打包,jar包在spark中的运行

1. Intellij IDEA 开发环境搭建 最近在学习scala,除需要编写scala程序外,同时还需要创建maven工程,打成Jar包,而Eclipse在这方面显得使用的不是那么方面,同时由于I...

利用Intellij Idea在windows搭建spark 开发环境(含打jar包过程)(一)

本文的目的:利用Intellij Idea在windows搭建spark 开发环境 环境:windows 10, intellij idea2016.1.1, spark 1.6.2(HDP),had...

Spark Streaming+IntelliJ Idea+Maven开发环境搭建

国内关于Spark流处理方面的资料实在是少之又少,开发环境搭建上一些细节上的说明就更少了,本文主要介绍在Windows下通过IntelliJ Idea连接远程服务器的Spark节点,接收FlumeNG...

Spark 开发环境搭建(2)IDEA 安装新版本IntelliJ IDEA 2017.1

Spark 开发环境搭建(2)IDEA 安装新版本IntelliJ IDEA 2017.11,卸载IDEA 老版本IntelliJ IDEA 2016.32,安装新版本IDEA 2017.1下载地址 ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:如何使用intellij搭建spark开发环境(下)
举报原因:
原因补充:

(最多只允许输入30个字)