热身30题
1.描述一下HDFS的写流程
2.描述一下HDFS的读流程
3.详细讲解一下HDFS的体系结构
4.如果一个datanode出现宕机,恢复流程是什么样的?
5.通常你是如何解决Haddop的NameNode宕机的,流程是什么?
6.描述一下NameNode对元数据的管理
7.NameNode对元数据的管理机制是什么?
8.详细描述一下Yarn的调度流程?
9.讲解一下Hadoop中combiner和partition的作用
10.你在MapReduce过程中遇到过数据倾斜问题吗?你是如何处理的?
11.Hadoop的Shuffle分为哪几个阶段?有什么特点
12.Mapreduce的map数量和reduce数量是由什么决定的?
13.你对MapReduce做过什么优化?有什么经验?
14.用过Combiner吗?什么情况要使用Combiner?
15.讲解一下MapReduce的流程?
16.HDFS的系统架构是如何保证数据安全的?
17.在通过客户端向HDFS中写数据的时候,如果某一台机器宕机了,会怎么处理
18.你对Hadoop集群做过哪些优化?有哪些常用的优化措施?
19.写出MapReduce求TopN的思路
20.Hadoop集群中有哪些进程?他们各自有什么作用?
21.Hadoop的job和Task之间的区别是什么?
22.Hadoop高可用HA模式如何配置?工作原理是什么?
23.安装过集群吗?大概需要哪