【MapReduce实例】单词统计

这篇博客通过实例展示了如何使用MapReduce计算文件中各单词的频数,并按照频数降序输出结果。首先,介绍了设计思路,包括两个job:job1用于统计词频,job2负责降序排序。接着详细解释了map和reduce函数的实现以及比较器的设计。最后,提供了完整的MapReduce代码。
摘要由CSDN通过智能技术生成
一、实例描述

计算出文件中各个单词的频数,要求输出结果按照单词出现的频数进行降序。
比如,输入文件
file1.txt,其内容如下:

hello word bye world

file2.txt,其内容如下:

hello hadoop goodbye hadoop

对应上面给出的输入样例,其输出样例为:

2 hadoop
2 hello
2 world
1 bye
1 goodbye

二、设计思路

输出结果要求根据单词词频进行降序输出,常见的原生WordCount计数只能统计出单词及其出现的频率,因此,需要在原生WordCount基础上作进一步改进,使得结果按照单词词频降序输出,于是我们可以设计两个job来实现该需求。(1)job1实现单词的词频统计;(2)job2实现根据单词词频进行降序排序。

这里写图片描述
图1

这里写图片描述
图2

1. job1的处理过程如图1所示
(1)Map函数设计
Map函数的实现目的:
<1, hello world bye world> ——> <hello, 1>,<world, 1>, <bye, 1>, <world, 1>
Map结果的输出格式为

 public static class WordCountMapper extends Mapper<Object, Text, Text, IntWritable> {
   

        private final static IntWritable one = new IntWritable(1);        //每个单词出现的次数设置为1
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            //默认情况按空格分割字符串,即"hello world bye world"按空格分割
            StringTokenizer itr = new StringTokenizer(value.toString());        
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);        //通过context对象写入<key, value>
            }
        }
    }

(2)Reduce函数设计
Reduce函数的实现目的:
<hello, {1,1}>,<bye, {1}> ——> <hello, 2>,<bye, 1>

因此Reduce函数的设计如下:

  public static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
   
        private IntWritable re
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值