MapReduce之 WordCount 源码分析和操作流程

最新推荐文章于 2022-08-03 18:41:44 发布

行路南

最新推荐文章于 2022-08-03 18:41:44 发布

阅读量6.1k

点赞数 1

分类专栏： Hadoop

本文链接：https://blog.csdn.net/u010414589/article/details/51334880

版权

本文介绍了Hadoop MapReduce的基础示例WordCount，详细分析了源码，包括Mapper、Reducer的实现及主函数的参数设置。同时，概述了WordCount的操作流程，从文件上传到HDFS，再到Map、Reduce处理和最终输出。

摘要由CSDN通过智能技术生成

在之前的工作中，主要做了三件事情：

1 如何完成Hadoop的完全分布式集群搭建
2 如何运行Hadoop自带示例WordCount，验证集群的运行
3 如何基于eclipse插件实现Hadoop编程

完成每一件事都需要经过谨慎的操作、反复的验证，还有耐心。安装完之后一下成功是很难的，仍需要检验每一步的操作、查看错误问题的日志、分析网上类似问题的各类解决方法，于是在千转百回之下，柳暗花明。我分享了以上操作的详细步骤和注意事项，如果你尚未搭建Hadoop，可以看一看，或许有帮助。
自此就正式开始进入Hadoop的学习之旅了。今天介绍Hadoop编程模型mapreduce中最基础的示例Wordcount。主要介绍两部分：

WordCount 源码分析
WordCount 操作流程

1 WordCount 源码分析

WordCount 的源码一般是在下载的Hadoop安装包下的hadoop-1.2.1/src/examples/org/apache/hadoop/examples 里面有WordCount.java文件，你可以使用UltraEdit或者记事本打开。内容如下：

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

  public static class TokenizerMapper 
       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());

最低0.47元/天解锁文章

行路南

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
MapReduce之 WordCount 源码分析和操作流程

在之前的工作中，主要做了三件事情：1 如何完成Hadoop的完全分布式集群搭建 2 如何运行Hadoop自带示例WordCount，验证集群的运行 3 如何基于eclipse插件实现Hadoop编程完成每一件事都需要经过谨慎的操作、反复的验证，还有耐心。安装完之后一下成功是很难的，仍需要检验每一步的操作、查看错误问题的日志、分析网上类似问题的各类解决方法，于是在千转百回之下，柳暗花明。我分享了以
复制链接

扫一扫

专栏目录