MR模型的介绍以及模型实例

最新推荐文章于 2023-11-15 23:26:08 发布

kabutack6

最新推荐文章于 2023-11-15 23:26:08 发布

阅读量1.5k

点赞数 1

文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/kabutack6/article/details/130712419

版权

当谈到大数据处理和机器学习时，MR（MapReduce）模型被广泛应用。MR模型是由 Google 所提出的一种基于多台机器的分布式计算框架，被广泛应用于大规模数据处理，特别是用于计算/搜索引擎中的数据索引和统计。在本文中，我们将学习如何使用MR模型编程。

MR模型核心思想：将任务分解成不同子任务，每个子任务在不同的节点上独立进行处理，最后将处理结果收集在一起，即可得到最终的结果。

首先，你需要在MR模型中实现两个核心函数：map函数和reduce函数。

map函数

map函数的作用是将初始数据集区分为一个或多个键值对。具体的，对于每个输入数据元组，map函数将生成一个或多个中间键值对。具体来说，例如我们要统计一篇文章中单词出现的频率，我们可以将文章划分为若干个段落，然后每个段落交给一个map函数进行处理。map函数会将每个单词作为键，出现的次数作为值，生成若干个键值对，作为中间结果输出。所以，map函数的输入为(键, 值)元组，输出为(中间键, 中间值)元组。

reduce函数

reduce函数的作用是合并中间键值对。具体的，同样以单词频率统计为例，reduce函数将接受中间键值对作为其输入，并输出由键和与各个值相关联的值列表组成的(键, 值列表)元组。值的列表是中间结果的合并结果，可能由多个map函数产生。最后再对每个键的值列表进行计算，得到最终结果。

那么，我们该如何实现这两个函数呢？一种实现方式是使用Hadoop框架，它提供了MR编程模型的高层抽象，封装了底层的流程，并提供了一组Java API使得我们可以方便地实现中间键值对的传递和任务调度。

在Hadoop中编写一个MR程序需要实现Mapper和Reducer两个类。在Mapper类中，我们需要覆盖map方法；在Reducer类中，我们需要覆盖reduce方法。另外，我们还要定义数据的输入和输出格式。

这里是一个基本的MR模型示例，用于统计文本文件中单词的出现次数：

java:
public class WordCount {

public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{ // 定义输入输出的键和值的类型

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(Object key, Text value, Context context
) throws IOException, InterruptedException { //实现Map函数
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}

public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWritable> { // 定义输入输出的键和值的类型

private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException { //实现Reduce函数
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration(); // 创建Hadoop配置实例
Job job = Job.getInstance(conf, "word count"); // 创建MapReduce作业实例

job.setJarByClass(WordCount.class); // 设置job类
job.setMapperClass(TokenizerMapper.class); // 设置Map类
job.setCombinerClass(IntSumReducer.class); // 设置合并类
job.setReducer

Class(IntSumReducer.class); // 设置Reduce类

job.setOutputKeyClass(Text.class); // 设置输出键的类型
job.setOutputValueClass(IntWritable.class); // 设置输出值的类型

FileInputFormat.addInputPath(job, new Path(args[0])); // 设置输入路径
FileOutputFormat.setOutputPath(job, new Path(args[1])); // 设置输出路径

System.exit(job.waitForCompletion(true) ? 0 : 1); // 提交作业并等待完成
}
}
```

在上述代码中，我们首先定义了TokenizerMapper和IntSumReducer这两个类，分别实现了Mapper和Reducer类。其中，TokenizerMapper类中的map方法将文本文件中的单词切分，然后生成每个单词的中间键值对；而IntSumReducer类中的reduce方法将相同单词的数量相加，并将结果输出为键值对。

接下来，我们通过Job类将这两个类组合起来，并对输入输出键值对类型进行设置，同时，通过addInputPath和setOutputPath方法，设置输入输出的路径。最后，我们使用System.exit方法，提交作业并等待完成。

总结下来，通过上述代码，我们可以看出MR模型的编程模式很清晰简洁，通过定义Map和Reduce函数，将任务拆分并在不同的节点上并行处理，最后将结果进行合并得到最终结果。MR模型的优点是可以在大数据处理时提高数据处理速度，同时也能够处理由多个计算节点和需要处理的任务组成的复杂问题。

值得一提的是，除了使用Hadoop框架实现MR模型编程外，还有一些其他的开源框架，如Apache Spark和Apache Flink，它们提供了更高级别的API和更高效的作业调度和数据处理引擎。