【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（十）

最新推荐文章于 2023-05-19 23:36:53 发布

大数据研习社

最新推荐文章于 2023-05-19 23:36:53 发布

阅读量338

点赞数

分类专栏：大数据运维大数据实战精英+架构师面试题文章标签：大数据面试经验分享运维 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dajiangtai007/article/details/125998184

版权

大数据实战精英+架构师同时被 3 个专栏收录

72 篇文章 54 订阅

订阅专栏

26 篇文章 15 订阅

订阅专栏

大数据运维

23 篇文章 30 订阅

订阅专栏

持续分享有用、有价值、精选的优质大数据面试题

致力于打造全网最全的大数据面试专题题库

91、首次启动 HDFS 时，必须对其进行格式化操作的命令？

参考答案：

bin/hdfs namenode -format或者bin/hadoop namenode –format

92、单独启停HDFS 进程命令？

参考答案：

1）启停NameNode

bin/hdfs --daemon start namenode

bin/hdfs --daemon stop namenode

2）启停DataNode

bin/hdfs --daemon start datanode

bin/hdfs --daemon stop datanode

93、NameNode的主要功作用有哪些?

参考答案：

一是管理文件系统文件的元数据信息(包括文件名称、大小、位置、属性、创建时间、修改时间等等)。

二是维护文件到块的对应关系和块到节点的对应关系。

三是维护用户对文件的操作信息(文件的增删改查)。

94、一个datanode 宕机,怎么恢复？

参考答案：

Datanode宕机了后，如果是短暂的宕机，可以实现写好脚本监控，将它启动起来。如果是长时间宕机了，那么datanode上的数据应该已经被备份到其他机器了，那这台datanode就是一台新的datanode了，删除他的所有数据文件和状态文件，重新启动。

95、Hadoop 的 namenode 宕机,怎么解决？

参考答案：

（1）先分析宕机后的损失，宕机后直接导致client无法访问，内存中的元数据丢失，但是硬盘中的元数据应该还存在，如果只是节点挂了，重启即可。

（2）如果是机器挂了，重启机器后看节点是否能重启，不能重启就要找到原因修复了。但是最终的解决方案应该是在设计集群的初期就考虑到这个问题，做namenode的HA。

提高容错：

第一种方式是将持久化存储在本地硬盘的文件系统元数据备份。

第二种方式是运行一个辅助的NameNode（Secondary Namenode）。

第三种 zookeeper提供的高可用（ha）机制。

96、hadoop出现文件块丢失怎么处理？

参考答案：

首先需要定位到哪的数据块丢失，可以通过查看日志进行检查和排除，找到文件块丢失的位置后，如果文件不是很重要可以直接删除，然后重新复制到集群上一份即可，如果删除不了，每一个集群都会有备份，需要恢复备份。

97、当hdfs小文件数量过多时，如何合并小文件？

参考答案：

（1）当每个小文件数据量比较小的时候，可以通过命令的方式进行小文件的合并如：

hdfs dfs -cat hdfs://mycluster/logs/*.log | hdfs dfs -appendToFile - hdfs://mycluster/logs/largeFile.log。

（2）当数据量比较大的时候建议使用MR进行小文件的合并。

98、hdfs 常见的数据压缩算法？

参考答案：

（1） Gzip 压缩

（2）Bzip2 压缩

（3）Lzo 压缩

（4）Snappy 压缩

99、有180的文件写入HDFS是先写128M 复制完之后再写52M 还是全部写完再复制？

参考答案：

HDFS上在写入数据的时候，首先会对数据切块，然后从客户端到datanode形成一个管道，在至少将一个文件写入hdfs上后，表示文件写入成功，然后进行复制备份操作，所以是全部写完再复制。

100、为什么会产生YARN，它解决了什么问题？有什么优势？

参考答案：

（1）产生原因

MapReduce存在的问题：

1）JobTracker 单点故障。

2）JobTracker 承受的访问压力大，影响系统的扩展性。

3）不支持MapReduce之外的计算框架，比如Storm、Spark、Flink。

（2）解决的问题

1）yarn 解决了JobTracker 负载过重的问题，将MR1中JobTracker的资源管理和作业调度两个功能分开，分别由ResourceManager和ApplicationMaster进程来实现。

2）支持更多的计算框架，MapReduce storm Spark Flink都可以运行在yarn上面。

（3）优势

1）更快地MapReduce计算。

2）对多框架支持。

3）框架升级更容易。

持续分享有用、有价值、精选的优质大数据面试题

致力于打造全网最全的大数据面试专题题库

大数据研习社

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏（十）

持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据研习社 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。