Spark算子综合案例 - Scala篇


第1关:WordCount - 词频统计

任务描述
本关任务:使用 Spark Core 知识编写一个词频统计程序。

编程要求
请仔细阅读右侧代码,根据方法内的提示,在Begin - End区域内进行代码补充,具体任务如下:

对文本文件内的每个单词都统计出其出现的次数。
按照每个单词出现次数的数量,降序排序。
文本文件内容如下:

hello java
hello python java
hello python python
hello flink
scala scala scala scala scala
说明:单词与单词之间以空格进行分割

测试说明
补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。
测试输入:可查看右侧文件夹中wordcount.txt文件,具体内容为上述文本内容。
预期输出:
(scala,5)
(hello,4)
(python,3)
(java,2)
(flink,1)

代码

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("WordCount")

    val sc = new SparkContext(conf)

    val path = "file:///root/files/wordcount.txt"

    /********* Begin *********/

    //读取文件创建RDD

    val file = sc.textFile(path)

    //切分并压平

    val words: RDD[String] = file.flatMap(_.split(" "))

    //组装

    val wordsAndone: RDD[(String, Int)] = words.map((_,1))

    //分组聚合

    val result: RDD[(String, Int)] = wordsAndone.reduceByKey(_+_)

    //排序

    val result1: RDD[(String, Int)] = result.sortBy(_._2,false)

    //输出

    result1.foreach(println)

  /********* End *********/

    sc.stop()

  }

}

在这里插入图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值