spark-TopK算法

最新推荐文章于 2023-06-05 09:04:54 发布

07H_JH

最新推荐文章于 2023-06-05 09:04:54 发布

阅读量2.3k

点赞数

分类专栏：大数据框架 spark/hadoop学习文章标签： spark hadoop 算法

本文链接：https://blog.csdn.net/jianghuxiaojin/article/details/51036168

版权

大数据框架同时被 2 个专栏收录

107 篇文章 24 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

spark/hadoop学习

36 篇文章 14 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

该博客介绍了如何使用Spark实现TopK算法，通过一个文本文件输入的例子展示了算法过程，输出了出现频率最高的单词及其次数。算法基于wordcount，完成分词统计后交换key/value并进行排序。应用场景包括热门消费分析、点击量统计和热门搜索等。

摘要由CSDN通过智能技术生成

Case:
输入：文本文件
输出：
(158,)
(28,the)
(19,to)
(18,Spark)
(17,and)
(11,Hadoop)
(10,##)
(8,you)
(8,with)
(8,for)
算法：
首先实现wordcount，topk实现是以wordcount为基础，在分词统计完成后交换key/value，然后调用sortByKey进行排序。
java

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;

了解本专栏

超级会员免费看

07H_JH

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
spark-TopK算法

Case: 输入：文本文件输出： (158,) (28,the) (19,to) (18,Spark) (17,and) (11,Hadoop) (10,##) (8,you) (8,with) (8,for)算法：首先实现wordcount，topk实现是以wordcount为基础，在分词统计完成后交换key/value，然后调用sortByKey进行排序。jav
复制链接

扫一扫