Hadoop --- 入门之MapReduce示例

最新推荐文章于 2024-08-27 06:39:08 发布

__静禅__

最新推荐文章于 2024-08-27 06:39:08 发布

阅读量585

点赞数

分类专栏：大数据 ------ Hadoop

本文链接：https://blog.csdn.net/ka_ka314/article/details/83182751

版权

本文介绍了Hadoop MapReduce的入门示例，包括单词统计（WordCount）和手机流量统计（FlowCount）。详细讲解了MapReduce程序的运行模式，如本地运行和集群运行，并概述了MapReduce编程规范，涉及Mapper、Reducer和Driver的使用。

摘要由CSDN通过智能技术生成

单词统计（WordCount）示例：

1、定义一个Mapper类：

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/**
 * KEYIN:默认情况下，是mr框架所读到的一行文本的起始偏移量，LongWritable
 * VALUEIN:默认情况下，是mr框架所读到的一行文本的内容，Text
 * 
 * KEYOUT:是用户自定义逻辑处理完成之后输出数据中的key，word count中是单词，Text
 * VALUEOUT:是用户自定义逻辑处理完成之后输出数据中的value，word count中是单词次数，IntWritable
 * 
 * 因为所有数据都需要被序列化，而Java的Serializable序列化会包含很多类的冗余信息，所以不适用Java中的类型，而是使用hadoop封装的可序列化类型
 * 
 * @author Administrator
 *
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

	/**
	 * map阶段的业务逻辑就写在自定义的map()方法中
	 * maptask会对每一行输入数据调用一次我们自定义的map()方法
	 */
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
			throws IOException, InterruptedException {
		
		// 将maptask传给我们的文本内容先转换成String
		String line = value.toString();
		// 根据空格将这一行切分成单词
		String[] words = line.split(" ");
		
		// 将单词输出为<K,V>
		for (String word:words) {
			// 将单词作为key，将次数1作为value，以便于后续的数据分发，可以根据单词分发，以便于相同单词汇总到相同的reduce task
			context.write(new Text(word),new IntWritable(1));
		}
		
	}
}

2、定义一个Reducer类

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/**
 * KEYIN:对应mapper输出的KEYOUT
 * VALUEIN:对应mapper输出的VALUEOUT
 * 
 * KEYOUT:是用户自定义逻辑处理完成之后输出数据中的key，word count中是单词，Text
 * VALUEOUT:是用户自定义逻辑处理完成之后输出数据中的value，word count中是单词次数，IntWritable
 * 
 * 因为所有数据都需要被序列化，而Java的Serializable序列化会包含很多类的冗余信息，所以不适用Java中的类型，而是使用hadoop封装的可序列化类型
 * 
 * @author Administrator
 *
 */
public class WordCountReducer extends Reducer<Text, IntWr