大数据基础入门——大数据框架Hadoop起源背景!

最新推荐文章于 2024-02-24 03:01:19 发布

weixin_34365417

最新推荐文章于 2024-02-24 03:01:19 发布

阅读量223

点赞数

文章标签：数据库 java 大数据

原文链接：http://blog.51cto.com/14231577/2369155

版权

　　大数据的概念在维克托的《大数据时代》一书中提到，书中大数据指不用随机分析法，而采用所有数据进行分析处理。书中的三个思想就是：数据不是随机样本，而是全部数据;数据不是精确性，而是混杂性;数据间不是因果关系，而是相关关系。那么大数据的应用框架是这样的呢?

　　随着信息社会的发展，数据在不断地增长，而且是超几何的增长。特别是在浏览器端产生的数据，万亿用户的浏览数据如何进行存储和分析计算，这就是Google这样的公司天然就需要面对的现实。Google在2003年发表文章《The Google File System 》，在2004年发表文章《MapReduce: Simplified Data Processing on Large Clusters》，在2006年发表文章《Bigtable: A Distributed Storage System for Structured Data》。大数据的应用框架，你一定听过Hadoop，对就是它!Hadoop是基于Google的三篇文章实现的开源框架，现在是Apache下一个很大的项目。

　　Hadoop的起源背景之GFS

　　大数据解决本质问题之一，就是海量的数据如何进行存储。海量的数据并不是传统的MB或者GB级数据，而是TB、PB级的数据概念。这就需要低成本、高效率、高可靠的储存设计。2003年，Google发表了《The Google File System》文章，阐述了解决海量数据储存的设计思想。在Apache下Lucene的子项目研究下，实现了海量数据的存储设计：分布式文件系统(也称之为分布式存储) HDFS( Hadoop Distributed File System)。

　　Hadoop的起源背景之MapReduce

　　大数据解决本质问题之二，就是海量数据如何进行分析与计算。在编程计算里，有并行编程计算框架，这并不是什么新兴的技术。同样Google在2004年发表了《MapReduce: Simplified Data Processing on Large Clusters》文章，阐述了基于分布式储存的海量数据并行计算解决方案思想。开源社区Apache的Hadoop项目研究实现了MapReduce并行计算框架，将计算与数据在本地进行，将数据分为Map和Reduce阶段。简单阐述就是MapReduce(Java语言实现)基础编程模型：把一个大任务拆分成小任务，再进行汇总。

　　Hadoop的起源背景之BigTable

　　大数据解决本质问题之三，就是对于海量的数据进行分析后，提高查询和利用数据的效率就是需要解决的重点。这就不得不说到数据库的起源了，数据库的产生就是为了查询和利用数据的效率提高，然而现有的数据库并不能满足基于分布式储存的需求。

　　Google工程师在2006年发表了《Bigtable: A Distributed Storage System for Structured Data》文章，文中阐述了基于分布式储存的数据库设计思想。就这样数据库时代从关系型数据库进入了非关系型数据库时代，一张大表BigTable设计思想，BigTable就是把所有的数据保存到一张表中，采用冗余方式(提高效率和可靠性)，基于其设计思想就开源实现了基于HDFS的非关系型数据库( NoSQL数据库)HBase。

　　小提示：其实在我们常用的云盘或者网盘，其设计思想就是这样的，笔者常用的百度网盘也就类似于这样分布式的储存。郑州妇科zztjfk.com/郑州妇科医院zztjfk.com/

转载于:https://blog.51cto.com/14231577/2369155