MapReduce实战一手写WordCount案例

最新推荐文章于 2024-04-19 23:58:36 发布

刘信坚的博客

最新推荐文章于 2024-04-19 23:58:36 发布

阅读量2.1k

点赞数

分类专栏： bigData hadoop java

本文链接：https://blog.csdn.net/qq_38974634/article/details/83714927

版权

该博客详细介绍了如何使用MapReduce实现WordCount功能，包括需求、代码解析及执行流程。通过MapReduce的map阶段读取文本数据，将行号和每行内容作为输入，reduce阶段对相同单词进行计数汇总。文章提供了Java代码示例（WordCountMapper, WordCountReducer, WordCountDriver）以及本地测试和Hadoop集群运行的方法。" 119105882,5551165,Java实现房屋发布数据库操作,"['Java开发', '数据库访问', '数据操作']

摘要由CSDN通过智能技术生成

需求：在一堆给定的文本文件中统计输出每一个单词出现的总次数
如下图所示为MapReduce统计WordCount的分析图：

map阶段从文件中读取数据，行号作为key，读取的每行值作为value，将每个key/value对输出给reduce阶段，reduce阶段将map阶段所有执行完的结果进行reduce操作，每个相同的key执行一次reduce方法。

代码如下：

WordCountMapper.java

package com.lxj.wc;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

//Map阶段：输入的行号作为key,每行读取的值作为value
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

	private Text k  = new Text();
	private IntWritable v = new IntWritable(1);
	
	@Override
	protected void map(LongWritable key, Text value,Context context) throws java.