hadoop中wordcount编写

最新推荐文章于 2021-05-14 16:35:55 发布

DylanWu123

最新推荐文章于 2021-05-14 16:35:55 发布

阅读量329

点赞数

文章标签： hadoop 统计word

本文链接：https://blog.csdn.net/DylanWu123/article/details/79534755

版权

本文档详细介绍了如何在Hadoop环境中编写WordCount程序，包括继承Mapper和Reducer类的步骤，以及主函数的编写过程。

摘要由CSDN通过智能技术生成

1.继承mapper

package com.dylan.bigdata.mr.wcdemo;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * KEYIN: 默认情况下，是mr框架所读到的一行文本的起始偏移量，Long,
 * 但是在hadoop中有自己的更精简的序列化接口，所以不直接用Long，而用LongWritable
 * 
 * VALUEIN:默认情况下，是mr框架所读到的一行文本的内容，String，同上，用Text
 * 
 * KEYOUT：是用户自定义逻辑处理完成之后输出数据中的key，在此处是单词，String，同上，用Text
 * VALUEOUT：是用户自定义逻辑处理完成之后输出数据中的value，在此处是单词次数，Integer，同上，用IntWritable
 * 
 * @author Dylan
 *
 */

public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

	/**
	 * map阶段的业务逻辑就写在自定义的map()方法中
	 * maptask会对每一行输入数据调用一次我们自定义的map()方法
	 */
	@Override
	protected void map(LongWritable key, Text value, Context context) throws I