MapReduce中各个阶段的分析

最新推荐文章于 2023-05-22 21:35:25 发布

专注_每天进步一点点

最新推荐文章于 2023-05-22 21:35:25 发布

阅读量434

点赞数

分类专栏： ZK+Hadoop+Hive+Hbase 百岁健康时间财务读书面试慢生活管理数据说话文章标签： MapReduce中各个阶段的分析

百岁健康时间财务读书面试慢生活管理数据说话同时被 2 个专栏收录

71 篇文章 1 订阅

订阅专栏

ZK+Hadoop+Hive+Hbase

35 篇文章 7 订阅

订阅专栏

MapReduce中各个阶段的分析：

在MapReduce的各个阶段：

在文件被读入的时候调用的是Inputformat方法读入的。inputformat——>recordreader——>read（一行）。在这里读入一行，返回的是(k,v）的形式，key是行号的偏移量，value的值是这一行的内容。

在上述的过程中，之后是调用map方法，将以上内容转换成正真的（key，value）的形式。key为值，value为1，然后调用context.write方法将该数据写出来。

从map端写出来之后具体写到outputcollector收集器中。

经过outputcollector收集器之后会写入到环形缓缓区中。在环形缓冲区中会做几件事情，①排序，调用的是快速排序法。②分区，调用的是hashpartitioner分区。达到80%之后会溢写磁盘。分区中hashpartitioner分区的时候是按照key进行hash取值的。相同的hash值会在一个分区中，取几个分区可以人为设定。排序的时候的两个依据是partition和key两个作为依据的。同一个partition中是按照key进行排序的。

环形缓冲区中的数据会spill溢写到磁盘中。

在溢写到磁盘之后会merge，归并排序，将多个小文件merge成大文件的。所以合并之后的大文件还是分区，并且分区内部是有序的。

在这里map阶段就算结束了，后边就是reduce阶段了，reduce阶段会去map阶段merge之后的文件中拿数据，按照相同的分区去取数据。reduce中是有分区号的，将数据拿过来之后会存储在本地磁盘中。

取完数据之后会按照相同的分区，再将取过来的数据进行merge归并排序，大文件的内容按照key有序进行排序。

之后会调用groupingcomparator进行分组，之后的reduce中会按照这个分组，每次取出一组数据，调用reduce中自定义的方法进行处理。

最后调用outputformat会将内容写入到文件中。

在这里map端输入的（key，value）的类型我们人为可以指定，一般会设置为（LongWritable,Text）,为什么会是longwritable呢，因为map端正真进来的时候是切分之后的文件。key的值是读取的行的偏移量。

原文地址：https://blog.csdn.net/wyqwilliam/article/details/84669579

专注_每天进步一点点

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapReduce中各个阶段的分析

MapReduce中各个阶段的分析：在MapReduce的各个阶段：在文件被读入的时候调用的是Inputformat方法读入的。inputformat——>recordreader——>read（一行）。在这里读入一行，返回的是(k,v）的形式，key是行号的偏移量，value的值是这一行的内容。在上述的过程中，之后是调用map方法，将以上内容转换成正真的（key，v...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。