(1)hadoop学习——hadoop的前世今生

事物存在就有它的意义,hadoop的发展可以说是必然的趋势。当数据进入爆发式增长的时代,摩尔定律变得越来越不适用,传统的存储方式和计算方式已经跟不上处理的节奏了。

原有的对应方式:加大磁盘空间(1T到100T?),加强cpu核心数(现在已经是8核,还能大到100核不成?计算机发热也是个问题)

所以,google的gfs和mp在众人的期盼下登场了(google在03和04年发布了两篇论文)。

在当时解决了三个最主要的问题:

1.成本降低,只需要廉价的pc机;

2.硬件故障视为常态;

3.简化分布式计算,无须控制节点同步和数据交换。

 

至于谷歌的gfs和mp和hadoop是什么联系,往下看就知道了。

 

Hadoop前世今生(此处只列举了其中一些)

2002年10月,DougCutting和Mike Cafarella创建了开源网页爬虫项目Nutch。

2003年10月,Google发表Google FileSystem论文。

2004年7月,DougCutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。

2004年10月,Google发表了MapReduce论文。

2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

2006年11月,Google发表了Bigtable论文,这最终激发了Hbase的创建。

2008年1月,Hadoop成为Apache顶级项目。

2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。

2010年-2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性。

2014年2月,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。

 

结论:hadoop前身是nutch,灵感来自于google发布的三篇论文——Google File System、MapReduce以及Bigtable。因为google仅仅只是发布论文,公布了思想,并没有开源代码,所以最初的hadoop(现在已经是一个庞大的生态圈)其实是对google这三篇论文的开源实现。hdfs对应gfs,mapreduce不用说,hbase则对应于BigTable。

 

这篇文章仅仅是介绍了hadoop诞生的过程,任何伟大的项目都离不开强大的人类和无数爱好者的无私奉献,也感谢Yahoo(Yahoo在hadoop的发展中起了很大作用)和apache的孵化,让我们今天能免费使用hadoop。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值