hadoop map reduce 阶段笔记

最新推荐文章于 2022-08-09 16:28:11 发布

alinshen

最新推荐文章于 2022-08-09 16:28:11 发布

阅读量195

点赞数

分类专栏： MapReduce

MapReduce 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

shuffle and sort

MR 框架保证：每个 reducer 的输入都是按照 key 键排过序的。

shuffle：将map输出结果送到reducer和排序的功能。

1） map：每个map task将结果输出到环形内存缓冲区，当到达一定阈值，则启动一个后台进程将缓存中的数据 1: 按照 reduce 阶段 reducer 的个数将数据分区，然后在每个分区里面的数据按照key键值排序，下一步，如果设置了 combiner 函数，则将这个combiner函数作用于上一步的结果，然后就是把数据保存到磁盘。

注意：

当这个后台进程将内存中的数据写入磁盘的时候，如果缓存已经满了，那么task会阻塞，直到spill阶段完成。

内存缓存默认是 100M，每当到达阈值则生成一个spill文件，task完成了以后，将多个spill文件合并成一个文件。这个文件是分区的，而且每个分区中的数据都是按key值排好序的。

可以让数据压缩

map 的数据是通过 http 传输给 reducer 的。

2）reduce：reducer 要执行任务，则第一步就需要获得 map 阶段输出到磁盘的数据。这个阶段叫做 copy phase。每个 reducer 默认有5个用于从远程机器获取数据的线程，并行执行。

map task 完成以后会利用心跳机制通知 application master 。application master 知道 map 和 host 的对应关系。每个reducer 有一个线程会周期性的询问 master map 阶段的输出数据位置，直到它已经获得所有map 阶段的数据为止。

copy phase：

1 如果 map 输出结果数据量比较小，则直接放在内存中，否则放到磁盘中。

2 当内存中的数据到达一定阈值，则将数据合并然后spill 到磁盘。（如果配置了 combiner ，那么保存到磁盘之前进行 combine）

3 copy 阶段继续执行，会开启一个后台进程将多个小文件合并并排序生成一个大文件。

4 当 map task 有一个完成了则开始 copy phase

sorted phase：

当map阶段文件都已经copy到reducer段然后执行 sorted phase（merge phase）。

1 将各个 map 输出的文件合并。

reduce phase：

将 sorted 阶段的结果作为 reduce 函数的输入，输出结果，如果是hdfs文件，那么第一个block将保存在本地节点的机器上

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop map reduce 阶段笔记

shuffle and sortMR 框架保证：每个 reducer 的输入都是按照 key 键排过序的。shuffle：将map输出结果送到reducer和排序的功能。1） map：每个map task将结果输出到环形内存缓冲区，当到达一定阈值，则启动一个后台进程将缓存中的数据 1: 按照 reduce 阶段 reducer 的个数将数据分区，然后在每个分区里面的数据按照
复制链接

扫一扫

专栏目录

alinshen CSDN认证博客专家 CSDN认证企业博客

码龄7年

20: 原创

10万+: 周排名

-: 总排名

70万+: 访问

: 等级

5660: 积分

213: 粉丝

329: 获赞

99: 评论

709: 收藏

私信

关注

热门文章

分类专栏

最新评论

一个用消息队列的人，不知道为啥用 MQ，这就有点尴尬
楼仔: 我之前看了一篇消息队列的文章，里面包括RabbitMQ、Kafka、RocketMQ和ActiveMQ这4种队列的对比和选型，关键是每种队列的原理都描述的非常清楚，希望可以一起学习交流~~ 《消息队列：从选型到原理，一文带你全部掌握》：https://mp.weixin.qq.com/s/Gb9k_LxQhOPDcMGxDJ9Jvw
怎么根据Comparable方法中的compareTo方法的返回值的正负判断升序还是降序？
㏑sinα: 还可以这样理解，厉害
一个用消息队列的人，不知道为啥用 MQ，这就有点尴尬
wyzzy_: 这波和ID配合得不是很好
一个用消息队列的人，不知道为啥用 MQ，这就有点尴尬
嘎嘎想成为大神: 楼主，图没有了
往oracle中插入geometry的两种方式
恩会: 想问一下，用java往oracle插入数据，string类型数据，拼成了下面这种字符串格式， // PreparedStatement ps ps.setObject(index, value, JDBCType.STRUCT);报错，有思路要怎么改吗？报错：Caused by: java.sql.SQLException: Fail to convert to internal representation: MDSYS.SDO_GEOMETRY(2003,null,null,MDSYS.SDO_ELEM_INFO_ARRAY(1.0, 1003.0, 3.0),MDSYS.SDO_ORDINATE_ARRAY(1.0, 1.0, 5.0, 7.0))

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。