idea编写的spark应用程序打成jar包到集群运行

本胖使用sbt进行spark的包管理,打成jar包到spark环境运行

1.打开idea项目结构配置页面,可以使用快捷键ctrl+shift+alt+s

2.添加应用程序的jar包设置

然后弹出这个窗口,直接点击ok到下一步就行

3.去除其他包的依赖,只保留你要打包的应用程序,这里还不是很明白原理,但是按照步骤这样点击,最后打包出来的就只有一个jar包,所有依赖都会包含在内

4.编译生成jar包,会出现如下两个画面。

 

点击build进行编译生成jar包!

5.最后将会在工程结构目录中看到out文件夹,在其中能找到你编译生成的jar包,这就是你待会儿要传到集群中去运行的jar包文件。

6.将这个jar包上传到你的集群环境中去运行,使用命令

/usr/local/spark/bin/spark-submit 
--class FirstTestJar //这是你的应用程序的主类名,不是你的工程名称
--master spark://master:7077 //这是你的运行模式,比如还有local模式,我这里是使用的集群模式
--executor-memory 1024m //设置每个核使用多少内存
--total-executor-cores 6 //设置使用多少个核运行
sparkJarTest.jar  //刚才打包生成的jar包

注意:后面的中文需要去掉,这是注释的作用,应该都懂,嘿嘿~

最后你能看到你的集群返回给你结果了,这个就不全部截图了,只给出部分log信息。

最后一点需要注意的地方是,作为一个小白,真的不知道setMaster这个东西有啥作用,暂时的理解为在idea上进行应用程序调试的时候,使用setMaster("local")就好了,可以简单理解为单机多线程处理。而打包时将这个地方进行注释掉,因为使用命令运行的时候,会给出master的,看上面的--master就知道了。

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是使用idea编写spark程序并提交到yarn集群的例子: 1. 首先,在idea中创建一个新的maven项目,选择scala语言。 2. 在pom.xml文件中添加以下依赖: ``` <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.0</version> </dependency> </dependencies> ``` 3. 创建一个简单的Spark应用程序,例如: ``` import org.apache.spark.sql.SparkSession object WordCount { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName("Word Count") .getOrCreate() val lines = spark.read.textFile(args(0)).rdd val words = lines.flatMap(_.split(" ")) val wordCounts = words.map((_, 1)).reduceByKey(_ + _) wordCounts.saveAsTextFile(args(1)) spark.stop() } } ``` 4. 在idea中配置Spark环境变量,打开“Run/Debug Configurations”窗口,选择“Application”,然后单击“+”按钮添加一个新的配置。在“Environment variables”字段中添加以下内容: ``` SPARK_HOME=/path/to/your/spark/home ``` 5. 在idea中打开终端,使用以下命令将应用程序打包成jar文件: ``` mvn package ``` 6. 将jar文件上传到yarn集群中: ``` hadoop fs -put /path/to/your/jar/file /user/yourname/ ``` 7. 在yarn集群中提交应用程序: ``` spark-submit --class WordCount --master yarn --deploy-mode cluster /user/yourname/your-jar-file.jar /input/path /output/path ``` 其中,“WordCount”是你的应用程序的类名,“/input/path”是输入文件的路径,“/output/path”是输出文件的路径。 8. 等待应用程序运行完成,然后检查输出文件是否正确生成。 希望这个例子能够帮助你使用idea编写spark程序并提交到yarn集群
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值