hadoop之HDFS HA高可用---HDFS Federation架构设计

NameNode架构的局限性

  1. Namespace(命名空间)的限制
    由于NameNode在内存中存储所有的元数据(metadata),因此单个NameNode所能存储的对象(文件+块)数目受到NameNode所在JVM的heap size的限制。50G的heap能够存储20亿(200million)个对象,这20亿个对象支持4000个DataNode,12PB的存储(假设文件平均大小为40MB)。随着数据的飞速增长,存储的需求也随之增长。单个DataNode从4T增长到36T,集群的尺寸增长到8000个DataNode。存储的需求从12PB增长到大于100PB。
  2. 隔离问题
    由于HDFS仅有一个NameNode,无法隔离各个程序,因此HDFS上的一个实验程序就很有可能影响整个HDFS上运行的程序
  3. 性能的瓶颈
    由于是单个NameNode的HDFS架构,因此整个HDFS文件系统的吞吐量受限于单个NameNode的吞吐量

HDFS Federation架构设计

能不能有多个NameNode

NameNodeNameNodeNameNode
元数据元数据元数据
Logmachine电商数据/话单数据

image.png

HDFS Federation应用思考

不同应用可以使用不同NameNode进行数据管理
图片业务、爬虫业务、日志审计业务
Hadoop生态系统中,不同的框架使用不同的NameNode进行管理NameSpace。(隔离性)

关注微信公众号
简书:https://www.jianshu.com/u/0278602aea1d
CSDN:https://blog.csdn.net/u012387141

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你意识到自己在实验过程中的不足之处,并找到改进的方向。你可以提HDFS FederationHDFS HAHadoop分布式文件系统(HDFS)中实现可用性和扩展性的两种不同机制,它们有以下区别: 1. 目标:HDFS Federation的目标是实现HDFS的水平扩展,通过将命名空间划分为多个命名空间(Namespace),每个命名空间有自己的NameNode负责管理,从而提系统的整体容量和吞吐量。而HDFS HA的目标是实现HDFS可用性,通过在集群中配置主备两个Name及自己在实验中遇到的困难和挑战,以及在解决问题时所采取的策略Node,当主节点发生故障时,备用节点可以快速接管服务。 2. 组件数量:HDFS Federation涉及多个NameNode和多个命名空间,每个命名空间都有一个独立的NameNode。而HDFS HA只涉及两个NameNode,即主节点和备用节点。 3. 命名空间划分:HDFS Federation将整个文件系统的命名空间划分为多个命名空间,并且每个命名空间有自己的NameNode。这样可以将文件系统的负载分散到多个NameNode上,提系统的扩展性。而HDFS HA只有一个命名空间,主备两个NameNode共享同一个命名空间。 4. 故障切换方式:在HDFS Federation中,当某个命名空间的NameNode发生故障时,只会影响该命名空间下的文件系统操作,其他命名空间仍然可用。而在HDFS HA中,当主节点发生故障时,备用节点会接管整个文件系统的服务,实现快速故障切换。 5. 配置和管理:HDFS Federation需要配置和管理多个NameNode和命名空间,这需要更多的配置和管理工作。而HDFS HA只需要配置和管理主备两个NameNode,相对来说更加简单。 总的来说,HDFS Federation是为了实现HDFS的水平扩展,提系统的容量和吞吐量;而HDFS HA是为了实现HDFS可用性,确保系统在主节点故障时能够快速恢复。它们分别解决了HDFS的扩展性和可靠性问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值