1.Map 类编写
Mapper:是 MapReduce 计算框架中 Map 过程的封装
Text:Hadoop 对 Java String 类的封装,适用于 Hadoop 对文本字符串的处理
IntWritable:Hadoop 对 Java Integer 类的封装,适用于 Hadoop 整型的处理
Context:Hadoop 环境基于上下文的操作对象,如 Map 中 key/value 的输出、分布式缓存数
据、分布式参数传递等
StringTokenizer:对 String 对象字符串的操作类,做基于空白字符的切分操作工具类
源码编写实现:
package com.tianliangedu.mapper;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class MyTokenizerMapper extends
Mapper<Object, Text, Text, IntWritable> {
// 暂存每个传过来的词频计数,均为 1,省掉重复申请空间
private final static IntWritable one = new IntWritable(1);
// 暂存每个传过来的词的值,省掉重复申请空间
private Text word = new Text();
// 核心 map 方法的具体实现,逐个<key,value>对去处理<
JAVA MapReduce 之经典问题WordCount代码实现与解析
最新推荐文章于 2020-05-02 15:52:14 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)