思考1:Google 搜索引擎每天要从世界各地抓取数以亿计的网页,数据都存储在哪里呢?
GFS:使用大量廉价的去掉硬盘的 PC 机构成集群,将数据都存储在服务器的内存中,采用分布式的文件系统进行存储。
思考2:内存中的数据掉电会丢失,怎么保证可靠呢?
在世界各地进行部署,部分地区还配有发电厂。
当然,不是所有的公司都像 Google 一样技术牛X,有钱,数据都存内存里面。我们的数据主要还是存储在硬盘中的,但是思路还是采用分布式的思想。
什么是分布式文件系统?
思考3:为什么要用分布式文件系统?分布式文件系统解决了什么问题?
分布式文件系统解决了数据的存储问题。
在没有使用分布式的文件系统时,数据存储可能遇到的问题有:
-
硬盘不够大,容纳不了我们要存储的数据。
解决:多几个硬盘。
-
要存储的数据非常大,一下把数据全部存入硬盘,中途断电了,部分数据不就丢失了吗,怎么办?
解决:将数据分块,按数据块的大小进行存储。