随着信息社会的发展,数据在不断地增长,而且是超几何的增长。特别是在浏览器端产生的数据,万亿用户的浏览数据如何进行存储和分析计算,这就是Google这样的公司天然就需要面对的现实。Google在2003年发表文章《The Google File System 》,在2004年发表文章《MapReduce: Simplified Data Processing on Large Clusters》,在2006年发表文章《Bigtable: A Distributed Storage System for Structured Data》。大数据的应用框架,你一定听过Hadoop,对就是它!Hadoop是基于Google的三篇文章实现的开源框架,现在是Apache下一个很大的项目。
Hadoop的起源背景之GFS大数据解决本质问题之一,就是海量的数据如何进行存储。海量的数据并不是传统的MB或者GB级数据,伊人在线:www.sheonline.cn而是TB、PB级的数据概念。这就需要低成本、高效率、高可靠的储存设计。2003年,Google发表了《The Google File System》文章,阐述了解决海量数据储存的设计思想。在Apache下Lucene的子项目研究下,实现了海量数据的存储设计:分布式文件系统(也称之为分布式存储) HDFS( Hadoop Distributed File System)。