MapReduce运行模式

MapReduce运行模式

  • 选择本地运行模式
  • 集群运行模式
    由于集群运行模式较为简单,所以我们选择本地运行模式,帮助大家更好理解MapReduce的运行思想
    1.准备好以下几个代码文件(和词频统计相关的,Mapper、Reducer和主类Driver)
    在这里插入图片描述
    在这里插入图片描述

2.我们需要运行此案例代码;

(1)分析代码:WordCountMapper.java
目的是将<k1,v1>转为<k2,v2>

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
	/**
	 * 这里就是mapper阶段具体业务逻辑实现的方法 该方法的调用取决于读取数据的组件有没有给MR传入数据
	 * 如果有数据传入,每一个<k,v>对,map就会被调用一次
	 */
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
			throws IOException, InterruptedException {
		// 拿到传入进来的一行内容,把数据类型转换为String
		String line = value.toString();
		// 将这行内容按照分隔符切割
		String[] words = line.split(" ");
		// 遍历数组,每出现一个单词就标记一个数组1 例如:<单词,1>
		for (String word : words) {
			// 使用MR上下文context,把Map阶段处理的数据发送给Reduce阶段作为输入数据
			context.write(new Text(word), new IntWritable(1));
			//第一行 hadoop hadoop spark  发送出去的是<hadoop,1><hadoop,1><spark,1> 
		}
	}
}

(2)接下来是:WordCountReducer.java代码
目的是将<k2,v2>转化为<k3,v3>

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

	/**
	 * 这里是REDUCE阶段具体业务类的实现方法
	 * 第一行 hadoop hadoop spark  发送出去的是<hadoop,1><hadoop,1><spark,1> 
	 * reduce接受所有来自Map阶段处理的数据之后,按照Key的字典序进行排序
	 * 按照key是否相同作一组去调用reduce方法
	 * 本方法的key就是这一组相同的kv对 共同的Key
	 * 把这一组的所有v作为一个迭代器传入我们的reduce方法
	 * 
	 * 迭代器:<hadoop,[1,1]>
	 * 
	 */
	@Override
	protected void reduce(Text key, Iterable<IntWritable> value,
			Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
		//定义一个计数器
		int count = 0;
		//遍历一组迭代器,把每一个数量1累加起来就构成了单词的总次数
		
		//
		for (IntWritable iw : value) {
			count += iw.get();
		}
		context.write(key, new IntWritable(count));
	}
}

(3)WordCountDriver.java
WordCountDriver主类;

public class WordCountDriver {

	public static void main(String[] args) throws Exception {
		// 通过Job来封装本次MR的相关信息
		Configuration conf = new Configuration();
		conf.set("mapreduce.framework.name", "local");
		Job wcjob = Job.getInstance(conf);

		// 指定MR Job jar包运行主类
		wcjob.setJarByClass(WordCountDriver.class);
		// 指定本次MR所有的Mapper Reducer类
		wcjob.setMapperClass(WordCountMapper.class);
		wcjob.setReducerClass(WordCountReducer.class);

		// 设置我们的业务逻辑 Mapper类的输出 key和 value的数据类型
		wcjob.setMapOutputKeyClass(Text.class);
		wcjob.setMapOutputValueClass(IntWritable.class);

		// 设置我们的业务逻辑 Reducer类的输出 key和 value的数据类型
		wcjob.setOutputKeyClass(Text.class);
		wcjob.setOutputValueClass(IntWritable.class);
		
		//设置Combiner组件
		wcjob.setCombinerClass(WordCountCombiner.class);
		

		// 指定要处理的数据所在的位置
		FileInputFormat.setInputPaths(wcjob, "D:/mr/input"); 
		// 指定处理完成之后的结果所保存的位置
		FileOutputFormat.setOutputPath(wcjob, new Path("D:/mr/output"));

		// 提交程序并且监控打印程序执行情况
		boolean res = wcjob.waitForCompletion(true);
		System.exit(res ? 0 : 1);
	}
}

注1:主类中里面有一个main方法;思路:先new一个Configuration()对象conf;接下来设置本地模式;得到Job任务对象Job ;接下来为Job进行相关参数设置;
注2:指定要处理的数据所在的位置"D:/mr/input",不存在要提前创建;// 指定处理完成之后的结果所保存的位置"D:/mr/output";目标路径不能存在,存在会报错。
(4)接下来的操作步骤如下:

  • 在D盘新建一个文件夹,命名为mr
  • 在mr文件夹下面新建一个文件input
  • 在input文件夹下新建一个文本文件words.txt
    在这里插入图片描述
    words.txt的文本文件内容如下:
hello world
hello java
hello python
hello hadoop
hello map

(5)运行代码;定位在WordCountDriver.java代码页面,右键-》运行方式-》Java应用程序
在这里插入图片描述
运行成功后,在D盘mr文件夹中会出现output文件夹。
在这里插入图片描述
其中part-r-00000是我们需要的结果文件!!!
单词统计结果如下:

hadoop	1
hello	5
java	1
map	1
python	1
world	1
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值