hadoop wordcount 代码

最新推荐文章于 2022-01-30 16:26:30 发布

架构师思考实践

最新推荐文章于 2022-01-30 16:26:30 发布

阅读量1.8k

点赞数 1

分类专栏： Hadoop学习与使用文章标签： hadoop wordcount

本文链接：https://blog.csdn.net/smile0198/article/details/21867203

版权

这篇博客适合Hadoop初学者，通过一个简单的WordCount程序，介绍了如何在Hadoop环境中进行数据处理。从编写程序，到准备输入数据，再到运行并查看输出结果，每个步骤都有详细说明。

摘要由CSDN通过智能技术生成

写个wordcount，刚入门的同学可以参考一下。这个是旧api。

直接贴程序了

一、程序

package WordCount;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class WordCount extends Configured implements Tool {
 
  public static class WCMapper extends MapReduceBase implements Mapper<Object, Text, Text, IntWritable> {
	  private final static IntWritable one = new IntWritable(1);
      private Text word = new Text();
    /**
     * 这里主要实现分词，将单词 ，组织成 key-value  即 单词 -1  的形式
     */
    public void map(Object key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
    	String line = value.toString();
        StringTokenizer tokenizer = new StringTokenizer(line);
        while (tokenizer.hasMoreTokens()) {
            word.set(tokenizer.nextToken());
            output.collect(word, one);
        }
    }
  }

  public static class WCReducer extends Map