大数据面试系列之——Hadoop

最新推荐文章于 2024-03-11 11:40:29 发布

潜心_守道

最新推荐文章于 2024-03-11 11:40:29 发布

阅读量367

点赞数

分类专栏：大数据面经文章标签：面试大数据 Hadoop

本文链接：https://blog.csdn.net/i_demo/article/details/103727266

版权

本文详述了Hadoop的三大核心组件——HDFS、MapReduce和YARN，包括集群搭建的不同模式、HDFS的心跳机制、机架感知策略、上传下载流程。此外，还探讨了Hadoop调度器的工作方式，如FIFO、Capacity Scheduler和Fair Scheduler，以及MapReduce中的Combiner和Partitioner的角色。

摘要由CSDN通过智能技术生成

Hadoop的三个核心：
HDFS（分布式存储系统）
MapReduce（分布式计算系统）
YARN (分布式资源调度)

1.Hadoop集群的几种搭建模式

1.单机模式：直接解压安装，不存在分布式存储系统
2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。
3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。
4.高可用模式：多个主节点，多个从节点，同一时间只有一个主节点对外服务，当提供服务的主节点出现故障时，其他任意一个主节点可以代替它，必须保持所有主节点实时数据一致，缺点主节点压力大容易出现宕机。
5.联邦模式：多个主节点，多个从节点，同一时间多个主节点分别负责部分从节点对外提供服务。
实际生产中超大集群一般采用高可用和联邦模式结合的方式部署。

2.HDFS的心跳机制
当NameNode和DataNode启动后，他们会保持通讯，DataNode会定时发送心跳报告到NameNode（默认时间间隔是3秒），以便让NameNode随时了解DataNode 的健康状态，当NameNode连续10次（默认值）未收到某一个DataNode的心跳报告时，NameNode会主动向DataNode发送检查，容许发送2次检查，每次检查默认时间是300秒，当2次检查都没有结果时断定这个DataNode节点宕机。
默认断定一个DataNode节点宕机的时间为103s+25min=630s

3.HDFS的机架感知策略
默认副本为3个，第一个副本放在本地节点存储，第二个副本放在和第一个副本不同机架任意节点，第三个副本放在和第二同机架的其他任意节点，这样既可以保证本地访问数据的速率，还可以尽可能保证数据的副本的安全。

4.HDFS的上传（写）下载（读）机制
上传机制

1.客户端（client）向NameNode发送文件上传请求；
2.NameNode会进行一系列检查，如用户权限、父目录是否存在、文件是否重名,成功则会为文件创建一个记录，否则向客户端抛出异常
3.NameNode检查通过

最低0.47元/天解锁文章

潜心_守道

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据面试系列之——Hadoop

Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN (分布式资源调度)一.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式：NameNode和DataNode安装于同一个节点，无法体现分布式处理的优势。3.完全分布式：一个主节点，多个从节点，存在如果主节点宕机，集群就无法使用的缺点。4.高可用模式...
复制链接

扫一扫

专栏目录