- 下载IntalliJIDEA
- 创建Scala工程(略)
- 新建工程-创建Maven工程;
- 导入scala包
- 加载spark-core_2.11依赖库
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.2</version> </dependency> 注意:spark-core_{版本号},版本号应为scala的对应版本。
下面以WordCount为例编写spark Driver端程序:
- 创建SparkConf对象,并指定集群模式和AppName
- 创建SparkContext对象,生成sc
- 创建RDD
- 针对业务需求,编写相应的RDD操作
object WordCount { def main(args: Array[String]): Unit = { //构建Spark的conf对象,并通过setMaster方法设置集群模式运行的方式{“本地”},通过setAppName方法指定应用名字 val conf = new SparkConf().setMaster("local").setAppName("wordcount") val sc = new SparkContext(conf); val rdd = sc.textFile("file:///D:/测试数据/spark_wordcount.txt") // val rdd1 = rdd.flatMap(x=> x.split(" ")) // val rdd2 = rdd1.map(x=>(x,1)) // val rdd3 = rdd2.reduceByKey((x,y)=>x+y) // rdd3.saveAsTextFile("file:///D:/测试数据/spark_wordcount_res") rdd.flatMap(x=>x.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("file:///D:/测试数据/spark_wordcount_res0") }
Spark独立应用的创建
最新推荐文章于 2024-04-18 08:58:29 发布