20道大数据常见面试题

最新推荐文章于 2022-04-27 16:49:05 发布

liyawu337

最新推荐文章于 2022-04-27 16:49:05 发布

阅读量1.1k

点赞数

文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liyawu337/article/details/109168957

版权

本文列举了20道关于Hadoop大数据的常见面试题，涵盖了Hadoop分布式集群的配置、组件功能、故障应对及MapReduce处理流程等方面。通过对Hadoop NameNode、DataNode、SecondaryNameNode的角色及YARN的资源调度机制的阐述，以及MapReduce在文本单词统计中的应用，深入理解大数据处理的关键概念和技术。

摘要由CSDN通过智能技术生成

1.Hadoop分布式集群与伪分布式集群的区别

分布式集群需要多台电脑,，一台为奴隶主机，其他的为奴隶机用来存储数据。

伪分布式集群可以使用一台电脑搭建，也可以使用多台电脑，只需要在slaves中添加自己的主机名就可以了，其他的与分布式一样。

2.Hadoop分为三个核心部分，每个部分是什么，有什么功能？

三个核心：hdfs，mapreduce和yarn

Hadfs：分布式文件系统，mapreduce:分布式计算框架，yarn：资源调度器

功能：hdfs：由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。用于存储文件，通过目录树来定位文件

Mapreduce：采用“分而治之”的思想，来处理大规模的数据。将数据拆解成多个部分，并利用集群的多个节点同时进行数据处理，然后将各个节点得到的中间结果进行汇总，经过进一步的计算（该计算也是并行进行的），得到最终结果

3.Hadoop分布式集群，默认备份数为多少，每个数据块大小是多少？在哪个配置文件中可以修改备份数与每个数据块大小？

默认备份为3份，每块数据大小128M，在hdfs-site.xml配置文件中可以修改备份数和数据块大小。

<property>
<name>dfs.block.size</name>
<value>128</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
4.Hadoop分布式集群中NN和DN、SN，指得是什么？他们分别有什么作用？

NN：Name Node 管理HDFS的命名空间,配置副本策略,管理数据块（Block）映射信息,处理客户端读写请求

DN：DataNode 存储实际的数据块,执行数据块的读/写操作

SN：SecondaryNameNode 辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode ,在紧急情况下，可辅助恢复NameNode

5.Hadoop分布式集群中，如

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
20道大数据常见面试题

1.Hadoop分布式集群与伪分布式集群的区别分布式集群需要多台电脑,，一台为奴隶主机，其他的为奴隶机用来存储数据。伪分布式集群可以使用一台电脑搭建，也可以使用多台电脑，只需要在slaves中添加自己的主机名就可以了，其他的与分布式一样。2.Hadoop分为三个核心部分，每个部分是什么，有什么功能？三个核心：hdfs，mapreduce和yarnHadfs：分布式文件系统，mapreduce:分布式计算框架，yarn：资源调度器功能：hdfs：由很多服务器联合起来实现其功能，集群中的
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。