MapReduce中的mapper和reducer以及context

程序员万万

于 2018-11-01 10:45:07 发布

阅读量4.8k

点赞数 3

分类专栏：大数据 map reduce mapreduce 文章标签： mapreduce mapper reducer mapreduce原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/crg18438610577/article/details/83616198

版权

大数据同时被 3 个专栏收录

3 篇文章

订阅专栏

1 篇文章

订阅专栏

1 篇文章

订阅专栏

关于MapReduce中的mapper

Mapper有setup()，map()，cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的准备工作，map()则一般承担主要的处理工作，cleanup()则是收尾工作如关闭文件或者执行map()后的K-V分发等。run()方法提供了setup->map->cleanup()的执行模板。

在MapReduce中，Mapper从一个输入分片中读取数据，然后经过Shuffle and Sort阶段，分发数据给Reducer，在Map端和Reduce端我们可能使用设置的Combiner进行合并，这在Reduce前进行。Partitioner控制每个K-V对应该被分发到哪个reducer[我们的Job可能有多个reducer]，Hadoop默认使用HashPartitioner，HashPartitioner使用key的hashCode对reducer的数量取模得来。

mapper的核心:

读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。
<0,hello you> <10,hello me>

覆盖map()，接收1.1产生的<k,v>，进行处理，转换为新的<k,v>输出。
<hello,1> <you,1> <hello,1> <me,1>

输出的<k,v>进行分区。默认分为一个区。详见《Partitioner》

对不同分区中的数据进行排序（按照k）、分组。分组指的是相同key的value放到一个集合中。排序后：<hello,1> <hello,1> <me,1> <you,1> 分组后：<hello,{1,1}><me,{1}><you,{1}>

将输入内容经过map后解析成新的键值对.

Shuffle过程，也称Copy阶段。reduce task从各个map task上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定的阀值，则写到磁盘上，否则直接放到内存中。

官方的Shuffle过程如上图所示，不过细节有错乱，官方图并没有说明partition、sort和combiner具体作用于哪个阶段。

注意：Shuffle过程是贯穿于map和reduce两个过程的！可以说shuffle是在map和reduce过程中间进行的.

其中shuffle有很重要的一个阶段就是sort(merge),将各个节点的map的值传过来进行合并,再传给reduce.

下图是我觉得很有代表性的一张图了:

其次mapper中有四个泛型,大家还记得吗?Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>

分别代表的是:

LongWritable key Map函数的输入键

Text value Map函数的输入值

OutputCollector<Text,IntWritable> output 输出键

Report reporter 输出值

接写来mapper中我们要重写一个map方法:里面有一个context参数,是将map后的结果写进去

context.write

这里当时我是纠结了很久的,纠结到底会不会覆盖,事实证明不会覆盖,因为他是实现序列化的,不会覆盖,直接写进去的.

最后大家如果相练习mapreduce的话

推荐三个很经典的例子:

单词统计

天气统计

二度关系(很重要)

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序员万万 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。