MapReduce运行模式

Mishell#

已于 2023-10-09 08:13:27 修改

阅读量438

点赞数

文章标签： c# 开发语言 eclipse java

于 2023-10-09 08:11:04 首次发布

本文链接：https://blog.csdn.net/maxuecsdn123456/article/details/133684877

版权

MapReduce运行模式

选择本地运行模式
集群运行模式
由于集群运行模式较为简单，所以我们选择本地运行模式，帮助大家更好理解MapReduce的运行思想
1.准备好以下几个代码文件（和词频统计相关的，Mapper、Reducer和主类Driver）

2.我们需要运行此案例代码；

（1）分析代码：WordCountMapper.java
目的是将<k1,v1>转为<k2,v2>

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
	/**
	 * 这里就是mapper阶段具体业务逻辑实现的方法 该方法的调用取决于读取数据的组件有没有给MR传入数据
	 * 如果有数据传入，每一个<k,v>对，map就会被调用一次
	 */
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
			throws IOException, InterruptedException {
		// 拿到传入进来的一行内容，把数据类型转换为String
		String line = value.toString();
		// 将这行内容按照分隔符切割
		String[] words = line.split(" ");
		// 遍历数组，每出现一个单词就标记一个数组1 例如：<单词,1>
		for (String word : words) {
			// 使用MR上下文context，把Map阶段处理的数据发送给Reduce阶段作为输入数据
			context.write(new Text(word), new IntWritable(1));
			//第一行 hadoop hadoop spark  发送出去的是<hadoop,1><hadoop,1><spark,1> 
		}
	}
}

（2）接下来是：WordCountReducer.java代码
目的是将<k2,v2>转化为<k3,v3>

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

	/**
	 * 这里是REDUCE阶段具体业务类的实现方法
	 * 第一行 hadoop hadoop spark  发送出去的是<hadoop,1><hadoop,1><spark,1> 
	 * reduce接受所有来自Map阶段处理的数据之后，按照Key的字典序进行排序
	 * 按照key是否相同作一组去调用reduce方法
	 * 本方法的key就是这一组相同的kv对 共同的Key
	 * 把这一组的所有v作为一个迭代器传入我们的reduce方法
	 * 
	 * 迭代器：<hadoop,[1,1]>
	 * 
	 */
	@Override
	protected void reduce(Text key, Iterable<IntWritable> value,
			Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
		//定义一个计数器
		int count = 0;
		//遍历一组迭代器，把每一个数量1累加起来就构成了单词的总次数
		
		//
		for (IntWritable iw : value) {
			count += iw.get();
		}
		context.write(key, new IntWritable(count));
	}
}

(3)WordCountDriver.java
WordCountDriver主类；

public class WordCountDriver {

	public static void main(String[] args) throws Exception {
		// 通过Job来封装本次MR的相关信息
		Configuration conf = new Configuration();
		conf.set("mapreduce.framework.name", "local");
		Job wcjob = Job.getInstance(conf);

		// 指定MR Job jar包运行主类
		wcjob.setJarByClass(WordCountDriver.class);
		// 指定本次MR所有的Mapper Reducer类
		wcjob.setMapperClass(WordCountMapper.class);
		wcjob.setReducerClass(WordCountReducer.class);

		// 设置我们的业务逻辑 Mapper类的输出 key和 value的数据类型
		wcjob.setMapOutputKeyClass(Text.class);
		wcjob.setMapOutputValueClass(IntWritable.class);

		// 设置我们的业务逻辑 Reducer类的输出 key和 value的数据类型
		wcjob.setOutputKeyClass(Text.class);
		wcjob.setOutputValueClass(IntWritable.class);
		
		//设置Combiner组件
		wcjob.setCombinerClass(WordCountCombiner.class);
		

		// 指定要处理的数据所在的位置
		FileInputFormat.setInputPaths(wcjob, "D:/mr/input"); 
		// 指定处理完成之后的结果所保存的位置
		FileOutputFormat.setOutputPath(wcjob, new Path("D:/mr/output"));

		// 提交程序并且监控打印程序执行情况
		boolean res = wcjob.waitForCompletion(true);
		System.exit(res ? 0 : 1);
	}
}

注1：主类中里面有一个main方法；思路：先new一个Configuration（）对象conf；接下来设置本地模式；得到Job任务对象Job ；接下来为Job进行相关参数设置；
注2：指定要处理的数据所在的位置"D:/mr/input"，不存在要提前创建；// 指定处理完成之后的结果所保存的位置"D:/mr/output"；目标路径不能存在，存在会报错。
（4）接下来的操作步骤如下：

在D盘新建一个文件夹，命名为mr
在mr文件夹下面新建一个文件input
在input文件夹下新建一个文本文件words.txt

words.txt的文本文件内容如下：

hello world
hello java
hello python
hello hadoop
hello map

（5）运行代码；定位在WordCountDriver.java代码页面，右键-》运行方式-》Java应用程序
在这里插入图片描述
运行成功后，在D盘mr文件夹中会出现output文件夹。

其中part-r-00000是我们需要的结果文件！！！
单词统计结果如下：

hadoop	1
hello	5
java	1
map	1
python	1
world	1

Mishell#

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫