学习GFS架构总结

本文总结了GFS架构的基本问题,包括为什么需要分布式、系统设计、chunk server的文件存储与高可用保障,以及master的单点设计与解决策略。详细阐述了写入和读取操作流程,强调了副本一致性、性能优化和master的全局负载均衡方法。
摘要由CSDN通过智能技术生成

基本问题

为什么需要分布式?

因为需要支持百万级的文件,单机无法满足,所以需要用许多廉价机器来协作完成。

如何设计架构

按最简单的来理解。我们存一个文件,就需要知道文件在磁盘中的位置。现在我们存大文件,我们则需要知道这个文件存在哪台机器上。顺着这个思路我们就构建了简单的索引->机器的架构。如下图所示:
在这里插入图片描述
我们把元数据放到master机器上,然后把真正的物理文件,存放到chunk机器上。这种架构就简单的实现了索引到文件的架构。

chunk server如何存文件

正常情况下,我们的文件大小,是按需求进行创建的,需要多大空间就存多大文件。而这里需要支持的是大文件,可能是比一个磁盘还大的文件。所以不可避免需要做文件切分。而切分之后,则是通过多个文件来构成大文件。使用定长的文件块为64M,有如下好处:

  1. 非常好构建索引
  2. 查询效率高,能直接找到偏移地址进行读取
  3. 之所以使用比较大的64M作为chunk size,可以减少许多文件与master的交互。

chunk server如何保证文件的High Availability

分布式系统让文件提升可靠,永远只有一个办法:副本。在chunk server对每个chunk进行副本的复制。正常

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值