【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（三）

最新推荐文章于 2023-05-19 23:36:53 发布

大数据研习社

最新推荐文章于 2023-05-19 23:36:53 发布

阅读量606

点赞数

分类专栏：大数据运维面试题大数据实时数仓文章标签：大数据运维 hadoop 面试 CDH

本文链接：https://blog.csdn.net/dajiangtai007/article/details/125498959

版权

面试题同时被 3 个专栏收录

26 篇文章 15 订阅

订阅专栏

大数据运维

23 篇文章 30 订阅

订阅专栏

大数据实时数仓

12 篇文章 5 订阅

订阅专栏

持续分享有用、有价值、精选的优质大数据面试题

致力于打造全网最全的大数据面试专题题库

21、为什么安装 HDFS HA 模式需要自定义一个 nameservice 的名称呢？为什么 apache Hadoop 不直接以 IP 地址来解析呢，而是要在 hdfs-site.xml配置中对 nameservice 通过名称解析成相应的地址，如果采用 IP(比如keepalived)技术不是也可以实现主备切换么,那官方使用 nameservice 的优点在哪呢?

参考答案：
因为高可用集群中有两个 NameNode，一个是 Active NameNode，一个是 Standby NameNode，二者可能会发生主从切换，只有 Active NameNode可对外提供服务，所以我们无法确定到底访问哪一个 NameNode，所以需要一个 nameservice 供我们访问，当我们已 nameservice 访问 NameNode 时，客户端会自动判断哪个是 Active NameNode，减轻了用户的成本。
IP 应用运维是高可用方案，对 NameNode 还是太简单了， DataNode 要同时跟两个 NameNode 建立连接，上报数据才能快速切换，而且 NameNode主从切换的时候需要校验很多状态，比如 EditLog 是否同步等，使用 IP 的话无法判断这些。

22、HDFS 的上传和下载都是实际上都是 client 自己完成的，在课堂上老师您说删除并不是 client 自己完成的， client 将需要删除的元数据信息发送给NameNode，而后通过 NameNode 和 DataNode 心跳机制实现，前面的增删查的原理您都说了，那修改 HDFS 文件内容时的原理能帮我们分析一些吗?或者带我们查看一下源码可以吗？

参考答案：
前面的课程中老师分享过一下源码，同学们觉得太难，后来老师就没有分享，如果大家有这个需求，后边老师可以再给大家查看一下源码，并教大家一些查看分析源码的方法，帮助大家在需要的时候有个更好的理解。本来源码分享不在我们的课程范围内，老师也不是平白无故阅读源码，需要的时候才看，比如修改 HDFS 文件内容老师就没看过。

23、MapReduce 严格意义上没有组件名称，我理解它只是一个计算思想，那我们可以在 YARN 中看到 MapReduce 的计算过程的身影吗？具体在哪里看呢？

参考答案：
可以在 YARN 的 WEB UI 中查看运行过程以及运行指标，点进第一列可以查看。

24、现在随着云原生技术越来越普及，以 CNCF 组织为首的开源产品Kubernetes 越发火爆，我们后期课程是否会讲解在 Kubernetes 集群中运行大数据组件呢？可以为我们提前爆料一些内容吗？

参考答案：
目前这期有打算讲解 Flink On Kubernetes 的程序，可能会放到课程后边结合实际的案例进行讲解，便于大家理解。

25、生产环境调优 HDFS 集群参数后 CDH 该如何进行平滑重启呢？

参考答案：
（1) 降低 BlockReport 时数据规模； NameNode 处理 BR 的效率低主要原因还是每次 BR 所带的 Block 规模过大造成，所以可以通过调整 Block 数量阈值，将一次 BlockReport 分成多盘分别汇报，提高 NameNode 处理效率。可参考的参数为： dfs.blockreport.split.threshold，默认为 1,000,000，当前集群DataNode 上 Block 规模数处于 240,000 ~ 940,000，建议调整为 500,000；
（2) 当需要对全集群的 DataNode 重启操作，且规模较大（包括集群规模和数据规模）时，建议在重启 DataNode 进程之后将 NameNode 重启，避免前面的“雪崩”问题；
（3) 控制重启 DataNode 的数量；按照当前节点数据规模，如果大规模重启DataNode，可采取滚动方式，以每次 15 个实例, 单位间隔 1min 滚动重启，如果数据规模增长，需要适当调整实例个数；

26、如果发现现有集群出现数据倾斜，生产环境中 HBase 出现数据倾斜了该如何解决呢？出现数据倾斜的原因到底是什么，换句话说，导致数据倾斜的罪魁祸首到底时开发，运维还是软件自身缺陷呢？

参考答案：
导致数据倾斜的原因是因为 rowkey 设计的不合理，跟 HBase 本身关系不大，这个我们在 HBase 组件运维的时候会讲解。

27、生产环境 RowKey 改如何设计才合理呢，合理的设计 RowKey 后就一定
能避免数据倾斜吗？

参考答案：
这个我们在 HBase 组件运维的时候会讲解。

28、目前 Hadoop 官方都发布了哪些版本呢?如何区分 Hadoop 所有的发行版本中哪个是稳定版，哪个是测试版，哪个是长期支持版本呢?

参考答案：
可以查看官方文档的 Latest news，里面有具体说明，见如下方框中的 stable就是稳定的意思，至于是不是长期支持版本需要看版本的特性，这个可能需要联系官方。

29、DataXceiver 这个类的和 DataNode 有什么关系呢?网上查阅了相关资料，都说它和文件操作超租期有什么关系，但描述的都模棱两可，老师您能用大白话帮我们解答一下吗？

参考答案：
首先需要知道 DataXceiverServer 是什么， DataXceiverServer 是DataNode 上一个用于接收数据读写请求的后台工作线程，为每个数据读写请求创建一个单独的线程去处理，这里所说的线程就是 DataXceiver。

从源码上看 DataXceiver 实现了 Runnable 接口，说明它是一个线程，他包含DataXceiverServer通过查看 DataXceiver 的 run 方法，发现调用的就是 DataXceiverServer 的处理逻辑，即接收数据读写请求的后台工作线程就是 DataXceiver ，DataXceiverServer 封装了处理逻辑。