MapReduce实现TopK的示例

最新推荐文章于 2019-10-24 11:06:43 发布

hadoop2015

最新推荐文章于 2019-10-24 11:06:43 发布

阅读量997

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/liujiyu1989/article/details/47829003

版权

博客内容介绍了如何使用MapReduce来找出词频排名前K的单词。首先，通过WordCount统计词频并排序，然后在map阶段用词频作为key，单词作为value。在shuffle过程中，相同词频的单词被汇总。接着，使用ArrayList存储相同词频的单词，避免了TreeMap中相同键值的问题。最后，通过第二个MR作业完成TopK的选择，将结果写入HDFS。

摘要由CSDN通过智能技术生成

由于开始学习MapReduce编程已经有一段时间了，作为一个从编程中寻找自信和乐趣以及热爱编程的孩子来讲，手开始变得很“痒”了，很想小试一下身手。于是自己编写了TopK的代码。TopK的意思就是从原文件中找出词频排名前K的所有单词。首先分析该问题，从中我们可以得到启发：要想知道词频排名前K的所有单词，那么是不是要对所有的单词进行词频的统计啊？于是我们就联想到了一个比较经典的例子：WordCount的例子。是的，没错。就是它，统计原文件中每个单词的个数就靠它。

　　但是，我们词频统计出来了，接下来需要做的就是如何找出词频排名前K的所有单词。如何找出词频排名前K呢？我们知道，WordCount得到的结果就是所有单词的词频情况，并且是已排好序的。所以，我们接下来需要做的是：

1、将所有相同词频的单词汇总，这一步就是map之后的shuffle过程可以得到相应的结果，只需要在map阶段将词频作为key，单词多作为value即可。

2、找出排名前k的词频的所有单词，并且按照词频的顺序排序，在这一步当中，很多人通过采用TreeMap的数据结构来实现，但是这里要注意点，TreeMap对于相同的键值是会进行覆盖的。因此无法操作相同键值的数据。也有些人对key进行封装，但同样还是避免不了有相同键值的结果。因此，我在这里采用的方法是将所有词频相同的单词用ArrayList存放起来，最后在将ArrayList的内容写入待hdfs中即可。

　　综上所述，要实现TopK的结果，需要用到两个MR作业，一个是WordCount作业，一个是TopK的作业。

代码如下：

1、WordCount的部分：

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class MyTopK {
	
	public static class  Mymap extends Mapper<LongWritable, Text, Text, IntWritable>{
		
		private final IntWritable one =new IntWritable(1);
		private Text word =new Text();
		
		public void map(LongWritable i

最低0.47元/天解锁文章

hadoop2015

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
MapReduce实现TopK的示例

由于开始学习MapReduce编程已经有一段时间了，作为一个从编程中寻找自信和乐趣以及热爱编程的孩子来讲，手开始变得很“痒”了，很想小试一下身手。于是自己编写了TopK的代码。TopK的意思就是从原文件中找出词频排名前K的所有单词。首先分析该问题，从中我们可以得到启发：要想知道词频排名前K的所有单词，那么是不是要对所有的单词进行词频的统计啊？于是我们就联想到了一个比较经典的例子：WordCount
复制链接

扫一扫

专栏目录