hadoop环境搭建视频:https://www.cniao5.com/course/lessons/10244
1.1Hadoop简介
1.1.1Hadoop的诞生
Hadoop是由Apache Lucene创始人Doug Cutting创建的。它起源于开源搜索引擎Apache Nutch。Nutch项目开始于2002年,是一个可以运行的网页爬取工具和搜索引擎系统,但是这个系统无法解决数十亿的搜索问题。
三篇划时代论文的诞生对Hadoop的诞生起到了决定性作用。
第一篇论文:GFS
2003年谷歌发表了 “The Google File System(谷歌文件系统,简称GFS)”的论文,GFS的架构能够满足在网页爬取和索引过程中产生的超大文件的存储需求。于是,在2004年Nutch团队开始做GFS的开源版本实现,也就是Nutch分布式文件系统(NDFS)。
第二篇论文:MapReduce
2004年谷歌发表了“MapReduce:Simplified Data Processing on Large Cluster(大型集群的数据简化处理)”的论文。2005年,Nutch团队在Nutch上实现了MapReduce。
2006年2月,Nutch开发人员将NDFS和MapReduce移除Nutch形成一个独立的项目,命名为Hadoop。这个名字不是缩写,是生造出来的。
第三篇:BigTable
2006年谷歌发表了“BigTable&