大数据面试系列之——Hadoop

本文详述了Hadoop的三大核心组件——HDFS、MapReduce和YARN,包括集群搭建的不同模式、HDFS的心跳机制、机架感知策略、上传下载流程。此外,还探讨了Hadoop调度器的工作方式,如FIFO、Capacity Scheduler和Fair Scheduler,以及MapReduce中的Combiner和Partitioner的角色。
摘要由CSDN通过智能技术生成

Hadoop的三个核心:
HDFS(分布式存储系统)
MapReduce(分布式计算系统)
YARN (分布式资源调度)

1.Hadoop集群的几种搭建模式

  • 1.单机模式:直接解压安装,不存在分布式存储系统
  • 2.伪分布式:NameNode和DataNode安装于同一个节点,无法体现分布式处理的优势。
  • 3.完全分布式:一个主节点,多个从节点,存在如果主节点宕机,集群就无法使用的缺点。
  • 4.高可用模式:多个主节点,多个从节点,同一时间只有一个主节点对外服务,当提供服务的主节点出现故障时,其他任意一个主节点可以代替它,必须保持所有主节点实时数据一致,缺点主节点压力大容易出现宕机。
  • 5.联邦模式:多个主节点,多个从节点,同一时间多个主节点分别负责部分从节点对外提供服务。
    实际生产中超大集群一般采用高可用和联邦模式结合的方式部署。

2.HDFS的心跳机制
当NameNode和DataNode启动后,他们会保持通讯,DataNode会定时发送心跳报告到NameNode(默认时间间隔是3秒),以便让NameNode随时了解DataNode 的健康状态,当NameNode连续10次(默认值)未收到某一个DataNode的心跳报告时,NameNode会主动向DataNode发送检查,容许发送2次检查,每次检查默认时间是300秒,当2次检查都没有结果时断定这个DataNode节点宕机。
默认断定一个DataNode节点宕机的时间为103s+25min=630s

3.HDFS的机架感知策略
默认副本为3个,第一个副本放在本地节点存储,第二个副本放在和第一个副本不同机架任意节点,第三个副本放在和第二同机架的其他任意节点,这样既可以保证本地访问数据的速率,还可以尽可能保证数据的副本的安全。

4.HDFS的上传(写)下载(读)机制
上传机制

  • 1.客户端(client)向NameNode发送文件上传请求;
  • 2.NameNode会进行一系列检查,如用户权限、父目录是否存在、文件是否重名,成功则会为文件创建一个记录,否则向客户端抛出异常
  • 3.NameNode检查通过
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值