Google 文件系统_gfs master-CSDN博客

本文链接：https://blog.csdn.net/m0_59369922/article/details/127554163

背景：

Google（谷歌）拥有全球最强大的搜索引擎，Google的拥有Google Maps、Google Earth、Gmail、YouTube等业务，这些业务的共性在于数据量巨大。

Google必须解决海量数据存储和快速处理问题，Google研发了简单而又高效的技术，让多达百万台廉价计算机协同工作。

Google云计算技术包括：Google文件系统GFS、分布式编程模型MapReduce、分布式锁服务Chubby、分布式结构化数据表Bigtable等；

Google文件系统：

Google文件系统（Google File System，GFS）是一个大型的分布式文件系统，为Google云计算提供海量存储。

Google GFS 采用廉价的商用机器构建分布式文件系统，然后将GFS的设计与Google应用的特点紧密结合。GFS将容错的任务交给文件系统，利用软件的方法解决系统可靠性问题，使存储成本成倍下降。

系统架构图如下图所示：

GFS系统分为三类角色：client（客户端）、Master（主服务器）和Chunk Server（数据块服务器）。

Client（客户端）是GFS提供给应用程序的访问接口；

Master（主服务器）是GFS的管理节点，在逻辑上只有一个，它保存系统的原数据，负责整个文件系统的管理，是GFS文件系统的“大脑”；

Chunk Server（数据块服务器）负责具体的存储工作，数据以文件的形式存储在Chunk Server上， Chunk Server的个数可以有多个，它的规模决定了GFS系统的大小；

原理：

客户端在访问GFS时，首先访问Master节点，获取与之进行交互的Chunk Server信息，然后直接访问这些Chunk Server，完成数据存取工作。这种设计实现了，数据流和控制流的分离。

Client与Master之间只有控制流，没有数据流，极大的降低了Master的负载。

Client与Chunk Server之间直接传输数据流，同时由于文件被分成多个Chunk进行分布式存储，Client可以同时访问多个Chunk Server，从而使得整个系统的I/O高度并行，系统整体性能得到提高。

1.采用中心服务器模式

GFS采用中心服务器模式管理整个文件系统，简化了设计，降低了实现难度。Master管理分布式文件系统中所有的元数据。文件划分为Chunk进行存储，对于Master来说，每个Chunk Server只是一个存储空间。Client发起的所有操作都需要先通过Master才能进行。这样做的好处是，增加新的Chunk Server是一件十分容易的事，Chunk Server只需要注册到Master上即可，Chunk Server之间无任何联系。Master维护了一个统一的命名空间，同时掌握整个系统范围内数据存储的负载均衡。

2.不缓存数据

从必要性上：客户端大部分是流式顺序读写，不存在大量的重复读写，缓存数据对提高系统性能意义不大；

从可行性上：如何维护缓存与实际数据之间的一致性是一个极其复杂的问题，在各个Chunk Server的稳定性无法保证。读取量巨大，以当前内存容量无法完全缓存现有数据。

3.在用户态下实现

4.只提供专用接口

提供一组与POSIX规范兼容的接口，使应用程序可以通过操作系统的统一接口透明的访问文件系统，二不是重新编译程序。

容错机制：

1.Master容错

Master上保存了GFS文件系统的三种原数据。

（1）命名空间（Name Space），整个文件系统的目录结构。

（2）Chunk与文件名的映射表。

（3）Chunk副本的位置信息，每一个Chunk默认有三个副本；