【Hadoop】Hadoop面试题

最新推荐文章于 2024-09-18 20:52:30 发布

浪里小飞侠

最新推荐文章于 2024-09-18 20:52:30 发布

阅读量277

点赞数

分类专栏：面试题文章标签： hadoop

本文链接：https://blog.csdn.net/m0_37882192/article/details/117381975

版权

本文详述了Hadoop面试中涉及的HDFS读写流程、故障处理、NameNode启动操作、Secondary NameNode的工作机制以及NameNode高可用的脑裂问题。此外，还涵盖了MapReduce的Map Task和Reduce Task的工作原理、Shuffle阶段的详细过程以及YARN的任务提交流程和三种调度器。这些内容是理解Hadoop分布式存储和计算框架的关键知识点。

摘要由CSDN通过智能技术生成

Hadoop基础面试题精选

1. 请说下HDFS读写流程
- HDFS写流程：
- HDFS读流程：
2. HDFS在读取文件的时候，如果其中一个块突然损坏了怎么办
3. HDFS在上传文件的时候，如果其中一个DataNode突然挂掉了怎么办
4. NameNode在启动的时候会做哪些操作
5. Secondary NameNode了解吗，它的工作机制是怎样的
6. Secondary NameNode不能恢复NameNode的全部数据，那如何保证NameNode数据存储安全
7. 在NameNode HA中，会出现脑裂问题吗？怎么解决脑裂
8. 小文件过多会有什么危害，如何避免
9. 请说下HDFS的组织架构
10. 请说下MR中Map Task的工作机制
11. 请说下MR中Reduce Task的工作机制
12. 请说下MR中Shuffle阶段
13. Shuffle阶段的数据压缩机制了解吗
14. 在写MR时，什么情况下可以使用规约
15. YARN集群的架构和工作原理知道多少
16. YARN的任务提交流程是怎样的
17. YARN的资源调度三种模型了解吗

hadoop中常问的就三块，第一：分布式存储(HDFS)；第二：分布式计算框架(MapReduce)；第三：资源调度框架(YARN)。

1. 请说下HDFS读写流程

HDFS写流程：

Client客户端发送上传请求，通过RPC与NameNode建立通信，NameNode检查该用户是否有上传权限，以及上传的文件是否在HDFS对应的目录下重名，如果这两者有任意一个不满足，则直接报错，如果两者都满足，则返回给客户端一个可以上传的信息；

Client根据文件的大小进行切分，默认128M一块，切分完成之后给NameNode发送请求第一个block块上传到哪些服务器上；

NameNode收到请求之后，根据网络拓扑和机架感知以及副本机制进行文件分配，返回可用的DataNode的地址；
注：Hadoop在设计时考虑到数据的安全与高效, 数据文件默认在HDFS上存放三份, 存储策略为本地一份，同机架内其它某一节点上一份, 不同机架的某一节点上一份。

客户端收到地址之后与服务器地址列表中的一个节点如A进行通信，本质上就是RPC调用，建立pipeline，A收到请求后会继续调用B，B在调用C，将整个pipeline建立完成，逐级返回Client；

Client开始向A上发送第一个block（先从磁盘读取数据然后放到本地内存缓存），以packet（数据包，64kb）为单位，A收到一个packet就会发送给B，然后B发送给C，A每传完一个packet就会放入一个应答队列等待应答；

数据被分割成一个个的packet数据包在pipeline上依次传输，在pipeline反向传输中，逐个发送ack（命令正确应答），最终由pipeline中第一个DataNode节点A将pipelineack发送给Client；

当一个block传输完成之后, Client再次请求NameNode上传第二个block，NameNode重新选择三台DataNode给Client。

HDFS读流程：

Client向NameNode发送RPC请求。请求文件block的位置；

NameNode收到请求之后会检查用户权限以及是否有这个文件，如果都符合，则会视情况返回部分或全部的block列表，对于每个block，NameNode都会返回含有该block副本的DataNode地址；这些返回的DataNode地址，会按照集群拓扑结构得出DataNode与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的DataNode状态为STALE，这样的排靠后；

Client选取排序靠前的DataNode来读取block，如果客户端本身就是DataNode,那么将从本地直接获取数据(短路读取特性)；

底层上本质是建立Socket Stream（FSDataInputStream），重复的调用父类DataInputStream的read方法，直到这个块上的数据读取完毕；

当读完列表的block后，若文件读取还没有结束，客户端会继续向NameNode 获取下一批的block列表；

读取完一个block都会进行checksum验证，如果读取DataNode时出现错误，客户端会通知NameNode，然后再从下一个拥有该block副本的DataNode 继续读；

read方法是并行的读取block信息，不是一块一块的读取；NameNode只是返回Client请求包含块的DataNode地址，并不是返回请求块的数据；

最终读取来所有的block会合并成一个完整的最终文件；