MapReduce的shuffle在面试的时候会问的几点

1.map为什么输出到环型缓冲区,为什么叫环型缓冲区?

使用内存减少磁盘落地的次数,增加程序的速度; 能让输出不停止,持续往缓冲区内写,

2.为什么在缓冲区输出的时候进行排序?

在内存内排序非常快,如果读取硬盘之后靠最后一步排序很慢,在缓冲区输出的时候进行排序这样最后一步reduce速度就会更快。

3.combiner的作用,运行原理?

对map输出进行局部聚合,减少map输出的数据量;shullfe或partition或mege时会进行调用。

4.reduce拉取过来的数据为什么放在buffer?

减少网络拉取的次数,和磁盘落地的次数,提高执行速度

5.为什么reducer输入的数据必须在硬盘上?直接放在内存里面不就不用排序了吗?

输入到内存上数据量大容易造成内存使用过多,内存使用过多虚拟机运行会不稳定,垃圾回收很频繁,虚拟机卡死等情况出现,reduce需要的是稳定执行。

6.MapReduce的map和reduce如果没有自己的实现类,那能运行吗?

没有自己的实现类能运行,因为map和reduce有自己默认的基类的方法。

7.什么是shuffle?

一是进行数据的网络拉取,二是进行key的洗排

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值