事物存在就有它的意义,hadoop的发展可以说是必然的趋势。当数据进入爆发式增长的时代,摩尔定律变得越来越不适用,传统的存储方式和计算方式已经跟不上处理的节奏了。
原有的对应方式:加大磁盘空间(1T到100T?),加强cpu核心数(现在已经是8核,还能大到100核不成?计算机发热也是个问题)
所以,google的gfs和mp在众人的期盼下登场了(google在03和04年发布了两篇论文)。
在当时解决了三个最主要的问题:
1.成本降低,只需要廉价的pc机;
2.硬件故障视为常态;
3.简化分布式计算,无须控制节点同步和数据交换。
至于谷歌的gfs和mp和hadoop是什么联系,往下看就知道了。
Hadoop前世今生(此处只列举了其中一些)
2002年10月,DougCutting和Mike Cafarella创建了开源网页爬虫项目Nutch。
2003年10月,Google发表Google FileSystem论文。
2004年7月,DougCutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。
2004年10月,Google发表了MapReduce论文。
2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
2006年11月,Google发表了Bigtable论文,这最终激发了Hbase的创建。
2008年1月,Hadoop成为Apache顶级项目。
2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。
2010年-2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性。
2014年2月,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。
结论:hadoop前身是nutch,灵感来自于google发布的三篇论文——Google File System、MapReduce以及Bigtable。因为google仅仅只是发布论文,公布了思想,并没有开源代码,所以最初的hadoop(现在已经是一个庞大的生态圈)其实是对google这三篇论文的开源实现。hdfs对应gfs,mapreduce不用说,hbase则对应于BigTable。
这篇文章仅仅是介绍了hadoop诞生的过程,任何伟大的项目都离不开强大的人类和无数爱好者的无私奉献,也感谢Yahoo(Yahoo在hadoop的发展中起了很大作用)和apache的孵化,让我们今天能免费使用hadoop。