spark任务提交
idea编写代码
1.idea编写代码
package bigdata
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
object Word {
def main(args: Array[String]): Unit = {
//1.创建SparkConf对象,设置appName
val sparkconf = new SparkConf().setAppName("Word")
//2.创建SparkContext对象,它是所有任务计算的源头,它会创建DAGScheduler和TaskScheduler
val sparkContext = new SparkContext(sparkconf)
//3.读取HDFS数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型
val data : RDD[String] = sparkContext.textFile(args(0))
//4.切分每一行,获取所有的单词
val words :RDD[String] = data.flatMap(_.split(" "))
//5.每个单词记为1,转换为(单词,1)
val wordAndOne :RDD[(String, Int)] = words.map(x =>(x,1))
//6.相同单词汇总,前一个下划线表示累加数据,后一个下划线表示新数据
val result: RDD[(String, Int)] = wordAndOne.reduceByKey(_+_)
//7.把结果数据保存到HDFS上
result.saveAsTe