简介
谷歌在2003到2006年间发表了三篇论文,《MapReduce: Simplified Data Processing on Large Clusters》,《Bigtable: A Distributed Storage System for Structured Data》和《The Google File System》介绍了Google如何对大规模数据进行存储和分析。这三篇论文开启了工业界的大数据时代。本文简单谈谈自己对于这几篇论文的理解。
背景
本质是由于在21世纪的数据巨量增加,Google的单机或简单的分布式方案满足不了用户需求,所以出现的新的数据处理方案,其产物就是GFS(Google File System)。但GFS只负责文件的存储而不能提供数据库服务(基于内容的检索功能),所以进而Google开发了Bigtable作为数据库,向上层服务提供基于内容的各种功能。他们还开发了对于的数据处理工具MapReduce,在读取了Bigtable数据的技术上,根据业务需求,对数据内容进行运算。
GFS
前置概念-分布式储存
题外:GFS论文一定程度催生了HDFS
文件系统
文件系统是负责管理和存储文件的系统软件,它是操作系统和硬件驱动之间的桥梁,操作系统通过文件系统提供的接口去存取文件,用户通过操作系统访问磁盘上的文件。
什么是分布式文件系统
分布式文件系统(Distributed File System)是一种允许文件通过网络在多台主机上共享的文件系统,可以让多机器上的多用户进行文件分享和存储。 在这样的文件系统中,客户端并非直接访问底层的数据存储区块,而是通过网络,以特定的通信协议和服务器沟通
什么是分布式存储
通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的