文章目录
-
- MapReduce问答题
-
- 一、描述一下手写MR的大概流程和规范
- 二、如何实现Hadoop中的序列化,以及Hadoop的序列化和Java的序列化有什么区别?
- 三、概述一下MR程序的执行流程
- 四、InputFormat负责数据写的时候要进行切片,为什么切片大小默认是128M
- 五、描述一下切片的逻辑(从源码角度描述)
- 六、CombineTextInputFormat机制是怎么实现的
- 七、阐述一下 Shuffle机制流程?
- 八、在MR程序中由谁来决定分区的数量,哪个阶段环节会开始往分区中写数据?
- 九、阐述MR中实现分区的思路(从源码角度分析)
- 十、描述一下Hadoop中实现排序比较的规则(源码角度分析)
- 十一、Hadoop中实现排序的两种方案分别是什么?
- 十二、编写MR的时候什么情况下使用Combiner,具体实现流程是什么?
- 十三、OutputFormat自定义实现流程描述一下
- 十四、MR实现 ReduceJoin 的思路,以及ReduceJoin方案有哪些不足?
- 十五、MR实现 MapJoin 的思路,以及MapJoin的局限性是什么?