【Hadoop基础教程】5、Hadoop之单词计数

最新推荐文章于 2024-04-29 00:30:02 发布

andie_guo

最新推荐文章于 2024-04-29 00:30:02 发布

阅读量8.5k

点赞数 1

分类专栏： hadoop Hadoop基础教程文章标签： hadoop 教程 wordcount mapreduce

本文链接：https://blog.csdn.net/andie_guo/article/details/44055863

版权

单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版“Hello World”，该程序的完整代码可以在Hadoop安装包的src/example目录下找到。单词计数主要完成的功能：统计一系列文本文件中每个单词出现的次数，如下图所示。本blog将通过分析WordCount源码来帮助大家摸清MapReduce程序的基本结构和运行机制。

单词计数

开发环境

硬件环境：Centos 6.5 服务器4台（一台为Master节点，三台为Slave节点）
软件环境：Java 1.7.0_45、hadoop-1.2.1

1、 WordCount的Map过程

Map过程需要继承org.apache.hadoop.mapreduce包中Mapper类，并重写其map方法。Map方法中的value值存储的是文本文件中的一行记录（以回车符为结束标记），而key值为该行的首字符相对于文本文件的首地址的偏移量。然后StringTokenizer类将每一行拆分成一个个的单词，并将

2、 WordCount的Reduce过程

Reduce过程需要继承org.apache.hadoop.mapreduce包中的Reduce类，并重写其reduce方法。Reduce方法的输入参数key为单个单词，而values是由各Mapper上对应单词的计数值所组成的列表，所以只要遍历values并求和，即可得到某个单词出现的总次数。
IntSumReducer类的实现代码如下，详细源码请参考：WordCount\src\WordCount.java。

public static class IntSumReducer 
   extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, Context context
                       ) throws IOException, InterruptedException {
      //输入参数key为单个单词;
      //输入参数Iterable<IntWritable> values为各个Mapper上对应单词的计数值所组成的列表。
      int sum = 0;
      for (IntWritable val : values) {//遍历求和
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);//输出求和后的<key,value>
    }
}

3、 WordCount的驱动执行过程

在MapReduce中，由Job对象负责管理和运行一个计算任务，并通过Job的一些方法对任务的参数进行相关的设置。此处设置了使用TokenizerMapper完成Map过程和使用IntSumReducer完成Combine和Reduce过程。还设置了Map过程和Reduce过程的输出类型：key的类型为Text，value的类型为IntWritable。任务的输入和输出路径则由命令行参数指定，并由FileInputFormat和FileOutputFormat分别设定。完成相应任务的参数设定后，即可调用job.waitForCompletion()方法执行任务。
驱动函数实现代码如下，详细源码请参考：WordCount\src\WordCount.java。

public static void

最低0.47元/天解锁文章

andie_guo

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
【Hadoop基础教程】5、Hadoop之单词计数

单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版“Hello World”，该程序的完整代码可以在Hadoop安装包的src/example目录下找到。单词计数主要完成的功能：统计一系列文本文件中每个单词出现的次数，如下图所示。本blog将通过分析WordCount源码来帮助大家摸清MapReduce程序的基本结构和运行机制。
复制链接

扫一扫

专栏目录