idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行(可以使用)


1、 创建基于maven的scala项目步骤

(1)创建一个maven项目
File->new project -> maven
 
不需要选择archetype,直接点击Next
 
Next
 
Finish,完成创建。项目目录如下:
 
(2)将scala添加到项目中
Add framework support
 
选择scala,以及对应的scala-sdk,完成后点击ok!
 
(3)创建wordcount对象



Ok,在WordCount中编写main方法作为程序的入口,如下:
 
(4)在maven的pox.xml中添加jar依赖
特别提醒:注意scala和spark的版本要相符合,否则运行会报错,下图用的是scala-2.10.4和spark-1.6.3。
 
(5)编写wordcount代码
 
(6)运行(快捷键:crtl+shift+f10)
 
(7)打包jar
 
 

 


上图中删除多余的jar一定要做,否则在spark集群中运行时会报错。
 
Ok!
 
 

 


生成的jar如图。
(8)在spark on yarn集群上运行
使用spark-submit部署应用
1) spark-submit的一般形式
bin/spark-submit [options] <app jar | python file> [app options]
<app jar | python file>表示包含应用入口的JAR包或者Python脚本
[app options]是传给你的应用的选项
spark-submit的一些常见标记
标记 描述
--master 表示要连接的集群管理器
--deploy-mode 选择在本地启动驱动器程序,还是在集群中的一台工作节点机器上启动。在客户端模式下,spark-submit会将驱动器程序运行在spark-submit被调用的这台机器上。在集群模式下,驱动器程序会被传输并被执行于集群的一个工作节点上,默认是本地模式。
--class 运行Java或者Scala程序应用的主类
--name 应用的显示名,会显示在spark的网页用户界面中
--jars 需要上传并放在应用的CLASSPATH中的JAR包的雷彪。如果应用依赖于少量第三方的jar包,可以把它们放在这个参数中
--files 需要放在应用工作目录中的文件雷彪。这个参数一般用来放需要分发到各节点的数据文件
--py-files 需添加到PYTHONPATH中的文件的雷彪。其中可以包含.py /.egg以及.zip文件
--executor-memory 执行器进程使用的内存量,以字节为单位,可以使用后缀指定更大的单位,比如512M或者15g
--driver-memory 驱动器进程使用的内存量,以字节为单位。可以使用后缀指定更大的单位,比如512m或者15g
./bin/spark-submit 
--master spark:// hostname:7077 
--deploy-mode cluster
--class com.databricks.examples.SparkExample
--name "Example program"
--jars dep1.jar,dep2.jar,dep3.jar
--total-executor-core 300
--executor-memory 10g
2) WordCount运行示例
说明:java文件夹已经mark as sources root了,所以在打包成jar的包运行过程中写main方法所在的类时直接从java目录下开始写即可。
 
运行命令行:




最后两个为jar包所在位置和输入文件在HDFS上的路径。注意spark-submit所在的位置。运行结果如图:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
下面是搭建idea+maven+spark+scala项目的步骤: 1. 安装JDK和Scala环境。 2. 安装Maven。 3. 在IDEA创建Maven项目。 4. 在pom.xml文件中添加依赖,包括SparkScala相关依赖。 5. 在src/main/scala目录下创建Scala文件。 6. 编写Spark程序。 7. 运行程序。 具体步骤如下: 1. 安装JDK和Scala环境 首先需要安装Java开发工具包(JDK),并配置环境变量。然后安装Scala编程语言,同样也需要配置环境变量。可以参考官网的安装说明进行操作。 2. 安装Maven Maven是一个Java项目管理工具,可以自动下载所需的依赖库,并将项目打包Jar包。可以从官网下载Maven,并配置环境变量。 3. 在IDEA创建Maven项目IDEA创建Maven项目,选择Scala模板,填写项目名称、groupId、artifactId等信息。IDEA会自动生成pom.xml文件。 4. 在pom.xml文件中添加依赖 在pom.xml文件中添加SparkScala相关依赖,例如: ``` <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.5</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version> </dependency> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.8</version> </dependency> </dependencies> ``` 5. 在src/main/scala目录下创建Scala文件 在src/main/scala目录下创建Scala文件,例如: ``` object Test { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Test").setMaster("local[*]") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val df = sqlContext.read.json("data/people.json") df.show() } } ``` 6. 编写Spark程序 在Scala文件中编写Spark程序,例如读取JSON文件并显示数据。 7. 运行程序 在IDEA运行程序,即可看到Spark程序的输出结果。 以上就是搭建idea+maven+spark+scala项目的步骤。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值