MapReduce的shuffle在面试的时候会问的几点

最新推荐文章于 2022-04-12 15:47:39 发布

風再起时

最新推荐文章于 2022-04-12 15:47:39 发布

阅读量315

点赞数 1

分类专栏： Hadoop 文章标签：大数据 hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45124278/article/details/105413257

版权

MapReduce的shuffle在大数据开发面试时会问的几点

1.map为什么输出到环型缓冲区，为什么叫环型缓冲区？

使用内存减少磁盘落地的次数，增加程序的速度；能让输出不停止，持续往缓冲区内写，

2.为什么在缓冲区输出的时候进行排序？

在内存内排序非常快，如果读取硬盘之后靠最后一步排序很慢，在缓冲区输出的时候进行排序这样最后一步reduce速度就会更快。

3.combiner的作用，运行原理？

对map输出进行局部聚合，减少map输出的数据量；shullfe或partition或mege时会进行调用。

4.reduce拉取过来的数据为什么放在buffer?

减少网络拉取的次数，和磁盘落地的次数，提高执行速度

5.为什么reducer输入的数据必须在硬盘上？直接放在内存里面不就不用排序了吗？

输入到内存上数据量大容易造成内存使用过多，内存使用过多虚拟机运行会不稳定，垃圾回收很频繁，虚拟机卡死等情况出现，reduce需要的是稳定执行。

6.MapReduce的map和reduce如果没有自己的实现类，那能运行吗？

没有自己的实现类能运行，因为map和reduce有自己默认的基类的方法。

7.什么是shuffle？

一是进行数据的网络拉取，二是进行key的洗排

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的shuffle在面试的时候会问的几点

MapReduce的shuffle在大数据开发面试时会问的几点1.map为什么输出到环型缓冲区，为什么叫环型缓冲区？2.为什么在缓冲区输出的时候进行排序？3.combiner的作用，运行原理？4.reduce拉取过来的数据为什么放在buffer?5.为什么reducer输入的数据必须在硬盘上？直接放在内存里面不就不用排序了吗？6.MapReduce的map和reduce如果没有自己的实现类，那能运...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。