如何在IDEA中编写Spark程序

环境搭建

1. 创建Maven项目

- 添加Spark依赖(在 pom.xml 中):

<dependency>  

    <groupId>org.apache.spark</groupId>  

    <artifactId>spark-core_2.12</artifactId>  

    <version>3.5.0</version>  

</dependency>  

 

2. 配置Scala SDK

- 在IDEA中安装Scala插件,设置项目SDK为Scala版本(如2.12)

编写第一个Spark程序

1. 创建Scala类

import org.apache.spark.{SparkConf, SparkContext}  

object SparkWordCount {  

  def main(args: Array[String]): Unit = {  

    val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]")  

    val sc = new SparkContext(conf)  

    val text = sc.textFile("input.txt")  

    val words = text.flatMap(_.split(" "))  

    val counts = words.map(word => (word, 1)).reduceByKey(_ + _)  

    counts.saveAsTextFile("output")  

    sc.stop()  

  }  

}  

运行与调试

- 本地调试:设置 setMaster("local[*]") ,直接在IDEA中运行主类。

- 提交到集群:

1. 打包项目为JAR(Maven的 package 命令)。

2. 执行命令:

spark-submit --master yarn --class SparkWordCount /path/to/your.jar hdfs://input.txt  

常见问题

- 依赖冲突:确保Spark和Hadoop版本兼容,使用 provided  scope排除冲突依赖。

- 日志配置:在 src/main/resources 添加 log4j.properties ,简化日志输出。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值