MR从读取数据开始到将最终结果写入HDFS经过哪些步骤（数据层面和内存层面）

最新推荐文章于 2023-01-26 22:41:48 发布

小Huya

最新推荐文章于 2023-01-26 22:41:48 发布

阅读量3.8k

点赞数 4

分类专栏： Hadoop

本文链接：https://blog.csdn.net/weixin_42518541/article/details/103096215

版权

Hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

数据层面

shuffle(核心机制：数据分区，排序，分组，ComBine，合并等过程) 输出key value的list
|
|
第五步： partition partition: 按照一定的规则对 **key value的 list进行分区
输出给Shuffle（sort）
|
第六步：Sort Sort :对每个分区内的数据进行排序。
输出给Shuffle（Combiner）
|
第七步：Combiner Combiner: 在Map端进行局部聚合（汇总）
目的是为了减少网络带宽的开销
输出给Shuffle（Group）
|
第八步：Group Group: 将相同key的key提取出来作为唯一的key 将相同key对应的value提取出来组装成一个value 的List
输出给Shuffle（reduce）
|
|
|
第九步: reduce：根据业务需求对传入的数据进行汇总计算。输出给Shuffle（outputFormat）
|
|
|
|
|
第十步：outputFormat outputFormat:将最终的额结果写入HDFS

图解

在这里插入图片描述

内存层面

内存角度介绍Map的输出到Reduce的输入的过程。
Map将数据传入环形缓冲区（默认100MB 可修改），环形缓冲区中的数据到达一定的阈值时（默认0.8 可修改）进行溢写生成好多临时文件，多个临时文件到达一定数量进行merge合并成一个大文件，
reduce会主动去发起拷贝线程到maptask获取属于自己的数据，数据会进入ReduceTask中的环形缓冲区，当缓冲区中的数据量到达一定阈值进行溢写，多个临时文件merge合并成一个大文件，最后输入到Reduce。

图解

在这里插入图片描述

小Huya

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MR从读取数据开始到将最终结果写入HDFS经过哪些步骤（数据层面和内存层面）

数据层面第一步:inputformat数据读取||输出给Split||第二步:split进行数据逻辑切分||输出给RR||第三步:recordReader(将数据以\n切分,进行再次切分,并输出key(行首偏移量),value(一行的数据))||输出给Map||第四步:Map接受key(行首偏移量),value(一行的数据),根域业务需求编写代码,输出(key...
复制链接

扫一扫

专栏目录