但凡开始讲大数据的,都离不开谷歌的三篇论文:Google File System(GFS),MapReduce,BigTable。本篇主要介绍谷歌的GFS,后面会介绍Mapreduce和BigTable。
我们先来看一下Linux的体系结构
Linux文件系统中的文件是数据的集合,文件系统不仅包含着文件中的数据而且还有文件系统的结构,所有Linux 用户和程序看到的文件、目录、软连接及文件保护信息等都存储在其中。
Hadoop也有自己的文件系统Hadoop Distributed File System(HDFS),Hadoop的HDFS设计思想源于谷歌的GFS,看GFS的全写就知道,GFS是谷歌的一个文件系统,但跟我们计算机里面的硬盘不一样,我们的硬盘只存在于你的一台计算机中,而GFS是建立在大量的计算机组成的集群中,用来存储海量数据(TB级和PB级)。
一 个GFS集群由一个master和大量的chunkserver构成,并被许多客户(Client)访问。
Master和 chunkserver通常是运行用户层服务进程的Linux机器。只要资源和可靠性允许,chunkserver和client可