MapReduce运行模式
- 选择本地运行模式
- 集群运行模式
由于集群运行模式较为简单,所以我们选择本地运行模式,帮助大家更好理解MapReduce的运行思想
1.准备好以下几个代码文件(和词频统计相关的,Mapper、Reducer和主类Driver)
2.我们需要运行此案例代码;
(1)分析代码:WordCountMapper.java
目的是将<k1,v1>转为<k2,v2>
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
/**
* 这里就是mapper阶段具体业务逻辑实现的方法 该方法的调用取决于读取数据的组件有没有给MR传入数据
* 如果有数据传入,每一个<k,v>对,map就会被调用一次
*/
@Override
protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
throws IOException, InterruptedException {
// 拿到传入进来的一行内容,把数据类型转换为String
String line = value.toString();
// 将这行内容按照分隔符切割
String[] words = line.split(" ");
// 遍历数组,每出现一个单词就标记一个数组1 例如:<单词,1>
for (String word : words) {
// 使用MR上下文context,把Map阶段处理的数据发送给Reduce阶段作为输入数据
context.write(new Text(word), new IntWritable(1));
//第一行 hadoop hadoop spark 发送出去的是<hadoop,1><hadoop,1><spark,1>
}
}
}
(2)接下来是:WordCountReducer.java代码
目的是将<k2,v2>转化为<k3,v3>
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
/**
* 这里是REDUCE阶段具体业务类的实现方法
* 第一行 hadoop hadoop spark 发送出去的是<hadoop,1><hadoop,1><spark,1>
* reduce接受所有来自Map阶段处理的数据之后,按照Key的字典序进行排序
* 按照key是否相同作一组去调用reduce方法
* 本方法的key就是这一组相同的kv对 共同的Key
* 把这一组的所有v作为一个迭代器传入我们的reduce方法
*
* 迭代器:<hadoop,[1,1]>
*
*/
@Override
protected void reduce(Text key, Iterable<IntWritable> value,
Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
//定义一个计数器
int count = 0;
//遍历一组迭代器,把每一个数量1累加起来就构成了单词的总次数
//
for (IntWritable iw : value) {
count += iw.get();
}
context.write(key, new IntWritable(count));
}
}
(3)WordCountDriver.java
WordCountDriver主类;
public class WordCountDriver {
public static void main(String[] args) throws Exception {
// 通过Job来封装本次MR的相关信息
Configuration conf = new Configuration();
conf.set("mapreduce.framework.name", "local");
Job wcjob = Job.getInstance(conf);
// 指定MR Job jar包运行主类
wcjob.setJarByClass(WordCountDriver.class);
// 指定本次MR所有的Mapper Reducer类
wcjob.setMapperClass(WordCountMapper.class);
wcjob.setReducerClass(WordCountReducer.class);
// 设置我们的业务逻辑 Mapper类的输出 key和 value的数据类型
wcjob.setMapOutputKeyClass(Text.class);
wcjob.setMapOutputValueClass(IntWritable.class);
// 设置我们的业务逻辑 Reducer类的输出 key和 value的数据类型
wcjob.setOutputKeyClass(Text.class);
wcjob.setOutputValueClass(IntWritable.class);
//设置Combiner组件
wcjob.setCombinerClass(WordCountCombiner.class);
// 指定要处理的数据所在的位置
FileInputFormat.setInputPaths(wcjob, "D:/mr/input");
// 指定处理完成之后的结果所保存的位置
FileOutputFormat.setOutputPath(wcjob, new Path("D:/mr/output"));
// 提交程序并且监控打印程序执行情况
boolean res = wcjob.waitForCompletion(true);
System.exit(res ? 0 : 1);
}
}
注1:主类中里面有一个main方法;思路:先new一个Configuration()对象conf;接下来设置本地模式;得到Job任务对象Job ;接下来为Job进行相关参数设置;
注2:指定要处理的数据所在的位置"D:/mr/input",不存在要提前创建;// 指定处理完成之后的结果所保存的位置"D:/mr/output";目标路径不能存在,存在会报错。
(4)接下来的操作步骤如下:
- 在D盘新建一个文件夹,命名为mr
- 在mr文件夹下面新建一个文件input
- 在input文件夹下新建一个文本文件words.txt
words.txt的文本文件内容如下:
hello world
hello java
hello python
hello hadoop
hello map
(5)运行代码;定位在WordCountDriver.java代码页面,右键-》运行方式-》Java应用程序
运行成功后,在D盘mr文件夹中会出现output文件夹。
其中part-r-00000是我们需要的结果文件!!!
单词统计结果如下:
hadoop 1
hello 5
java 1
map 1
python 1
world 1