spark编程实战(四) —— 词频统计（WordCount）和 Top K

最新推荐文章于 2024-04-02 13:01:45 发布

BigCabbageFy

最新推荐文章于 2024-04-02 13:01:45 发布

阅读量2.4k

点赞数 2

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/bigcabbagefy/article/details/86096480

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

最近正在看《Spark大数据处理：技术、应用与性能优化》这本书，然后对于最后一章的编程实战比较感兴趣。但是上面写的算法个人觉得还不是很简洁，无法体现出scala的优点，所以稍作了一些修改，仅供参考。

Top K算法有两步，一是统计词频，二是找出词频最高的前K个词。

1.实例描述

假设取Top 1，则有如下输入和输出。

输入：

Hello World Bye World

Hello Hadoop Bye Hadoop

Bye Hadoop Hello Hadoop

输出：

词Hadoop 词频4

2.设计思路

首先统计WordCount的词频，将数据转化为（词，词频）的数据对，第
二个阶段采用分
治的思想，求出RDD每个分区的Top K，最后将每个分区的Top K结果合并以产生新的集
合，在集合中统计出Top K的结果。

每个分区由于存储在单机的，所以可以采用单机求Top
K的方式。本例采用堆的方式。也可以直接维护一个含K个元素的数组，感兴趣的读者可以
参考其他资料了解堆的实现。

代码实现：

package spark

import org.apache.spark.{SparkConf, SparkContext}

object TopK {

  def main(arg: Array[String]):Unit={
    val conf = new SparkConf().setAppName("dcd").setMaster("local")
    val sc = new SparkContext(conf)
    
    //词频统计
    val dataRDD = sc.textFile("F://wordcount.txt")
      .flatMap(_.split(" "))
      .map(x => (x, 1))
      .reduceByKey((a, b) => (a+b))
    dataRDD.foreach(println)
    
    //Top K
    val topRDD = dataRDD.map{
      case(key, value) => (value, key)
    }.sortByKey().top(3).foreach(x =>println(x._2+"-->"+x._1))
  }

}