大数据的概念在维克托的《大数据时代》一书中提到,书中大数据指不用随机分析法,而采用所有数据进行分析处理。书中的三个思想就是:数据不是随机样本,而是全部数据;数据不是精确性,而是混杂性;数据间不是因果关系,而是相关关系。那么大数据的应用框架是这样的呢?

  随着信息社会的发展,数据在不断地增长,而且是超几何的增长。特别是在浏览器端产生的数据,万亿用户的浏览数据如何进行存储和分析计算,这就是Google这样的公司天然就需要面对的现实。Google在2003年发表文章《The Google File System 》,在2004年发表文章《MapReduce: Simplified Data Processing on Large Clusters》,在2006年发表文章《Bigtable: A Distributed Storage System for Structured Data》。大数据的应用框架,你一定听过Hadoop,对就是它!Hadoop是基于Google的三篇文章实现的开源框架,现在是Apache下一个很大的项目。

  Hadoop的起源背景之GFS

  大数据解决本质问题之一,就是海量的数据如何进行存储。海量的数据并不是传统的MB或者GB级数据,而是TB、PB级的数据概念。这就需要低成本、高效率、高可靠的储存设计。2003年,Google发表了《The Google File System》文章,阐述了解决海量数据储存的设计思想。在Apache下Lucene的子项目研究下,实现了海量数据的存储设计:分布式文件系统(也称之为分布式存储) HDFS( Hadoop Distributed File System)。

  Hadoop的起源背景之MapReduce

  大数据解决本质问题之二,就是海量数据如何进行分析与计算。在编程计算里,有并行编程计算框架,这并不是什么新兴的技术。同样Google在2004年发表了《MapReduce: Simplified Data Processing on Large Clusters》文章,阐述了基于分布式储存的海量数据并行计算解决方案思想。开源社区Apache的Hadoop项目研究实现了MapReduce并行计算框架,将计算与数据在本地进行,将数据分为Map和Reduce阶段。简单阐述就是MapReduce(Java语言实现)基础编程模型:把一个大任务拆分成小任务,再进行汇总。

  Hadoop的起源背景之BigTable

  大数据解决本质问题之三,就是对于海量的数据进行分析后,提高查询和利用数据的效率就是需要解决的重点。这就不得不说到数据库的起源了,数据库的产生就是为了查询和利用数据的效率提高,然而现有的数据库并不能满足基于分布式储存的需求。

  Google工程师在2006年发表了《Bigtable: A Distributed Storage System for Structured Data》文章,文中阐述了基于分布式储存的数据库设计思想。就这样数据库时代从关系型数据库进入了非关系型数据库时代,一张大表BigTable设计思想,BigTable就是把所有的数据保存到一张表中,采用冗余 方式(提高效率和可靠性),基于其设计思想就开源实现了基于HDFS的非关系型数据库( NoSQL数据库)HBase。

  小提示:其实在我们常用的云盘或者网盘,其设计思想就是这样的,笔者常用的百度网盘也就类似于这样分布式的储存。郑州妇科zztjfk.com/郑州妇科医院zztjfk.com/