Hadoop之Yarn面试知识复习
目录
- 简述hadoop1与hadoop2 的架构异同
- 为什么会产生 yarn,它解决了什么问题,有什么优势?
- Hadoop之Yarn工作机制详解
- HDFS的数据压缩算法?
- Hadoop的调度器总结
- MapReduce 2.0 容错性
- mapreduce推测执行算法及原理
1. 简述hadoop1与hadoop2 的架构异同
- 加入了yarn解决了资源调度的问题。
- 加入了对zookeeper的支持实现比较可靠的高可用。
2. 为什么会产生 yarn,它解决了什么问题,有什么优势?
- Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。
- Yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如mapreduce、storm程序,spark程序……
3. Hadoop之Yarn工作机制详解
已详细总结过,请参考:Hadoop之Yarn工作机制详解
4. HDFS的数据压缩算法?
已详细总结过,请参考:Hadoop之Hadoop数据压缩
5. Hadoop的调度器总结
已详细总结过,请参考:Hadoop之资源调度器与任务推测执行
6. MapReduce 2.0 容错性
- MRAppMaster容错性
一旦运行失败,由YARN的ResourceManager负责重新启动,最多重启次数可由用户设置,默认是2次。一旦超过最高重启次数,则作业运行失败。 - Map Task/Reduce Task
Task周期性向MRAppMaster汇报心跳;一旦Task 挂掉,则MRAppMaster将为之重新申请资源,并运行之。最多重新运行次数可由用户设置,默认4 次。
7. mapreduce推测执行算法及原理
已详细总结过,请参考:Hadoop之资源调度器与任务推测执行