【MapReduce实例】单词统计

最新推荐文章于 2024-08-17 21:28:57 发布

王小康walker

最新推荐文章于 2024-08-17 21:28:57 发布

阅读量2k

点赞数

分类专栏： Hadoop MapReduce 文章标签： hadoop mapreduce 实例

本文链接：https://blog.csdn.net/qq_29342837/article/details/78713036

版权

这篇博客通过实例展示了如何使用MapReduce计算文件中各单词的频数，并按照频数降序输出结果。首先，介绍了设计思路，包括两个job：job1用于统计词频，job2负责降序排序。接着详细解释了map和reduce函数的实现以及比较器的设计。最后，提供了完整的MapReduce代码。

摘要由CSDN通过智能技术生成

一、实例描述

计算出文件中各个单词的频数，要求输出结果按照单词出现的频数进行降序。
比如，输入文件
file1.txt，其内容如下：

hello word bye world

file2.txt，其内容如下：

hello hadoop goodbye hadoop

对应上面给出的输入样例，其输出样例为：

2 hadoop
2 hello
2 world
1 bye
1 goodbye

二、设计思路

输出结果要求根据单词词频进行降序输出，常见的原生WordCount计数只能统计出单词及其出现的频率，因此，需要在原生WordCount基础上作进一步改进，使得结果按照单词词频降序输出，于是我们可以设计两个job来实现该需求。（1）job1实现单词的词频统计；（2）job2实现根据单词词频进行降序排序。

这里写图片描述
图1

这里写图片描述
图2

1. job1的处理过程如图1所示
（1）Map函数设计
Map函数的实现目的：
<1, hello world bye world> ——> <hello, 1>，<world, 1>， <bye, 1>， <world, 1>
Map结果的输出格式为

 public static class WordCountMapper extends Mapper<Object, Text, Text, IntWritable> {
   

        private final static IntWritable one = new IntWritable(1);        //每个单词出现的次数设置为1
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            //默认情况按空格分割字符串，即"hello world bye world"按空格分割
            StringTokenizer itr = new StringTokenizer(value.toString());        
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);        //通过context对象写入<key, value>
            }
        }
    }

（2）Reduce函数设计
Reduce函数的实现目的：
<hello, {1,1}>，<bye, {1}> ——> <hello, 2>，<bye, 1>

因此Reduce函数的设计如下：

  public static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
   
        private IntWritable re

最低0.47元/天解锁文章

王小康walker

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录