mapreduce wordcount完整代码

最新推荐文章于 2022-11-11 20:32:53 发布

asd1456732891

最新推荐文章于 2022-11-11 20:32:53 发布

阅读量883

点赞数

分类专栏：大数据 java

本文链接：https://blog.csdn.net/asd1456732891/article/details/99370133

版权

本文将详细介绍如何使用MapReduce实现WordCount功能。通过分析map、reduce和driver阶段的代码，理解分布式计算的基本过程。

摘要由CSDN通过智能技术生成

map：

package cn.itcast.mapreduce;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
/**
 * 
 * @author AllenWoon
 *
 * Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
 * KEYIN：是指框架读取到的数据的key类型
 * 		在默认的读取数据组件InputFormat下，读取的key是一行文本的偏移量，所以key的类型是long类型的
 * 
 * VALUEIN指框架读取到的数据的value类型
 * 		在默认的读取数据组件InputFormat下，读到的value就是一行文本的内容，所以value的类型是String类型的
 * 
 * keyout是指用户自定义逻辑方法返回的数据中key的类型 这个是由用户业务逻辑决定的。
 * 		在我们的单词统计当中，我们输出的是单词作为key，所以类型是String
 * 
 * VALUEOUT是指用户自定义逻辑方法返回的数据中value的类型 这个是由用户业务逻辑决定的。
 * 		在我们的单词统计当中，我们输出的是单词数量作为value，所以类型是Integer
 * 
 * 但是，String ,Long都是jdk中自带的数据类型，在序列化的时候，效率比较低。hadoop为了提高序列化的效率，他就自己自定义了一套数据结构。
 * 
 * 所以说在我们的hadoop程序中，如果该数据需要进行序列化（写磁盘，或者网络传输ÿ