目录
1.Hadoop介绍
狭义上来说,hadoop就是单独指代hadoop这个软件,
广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件
2.Hadoop是什么
Hadoop是大数据的分布式存储和计算平台。它不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。
Hadoop1.x中包括两个核心组件:MapReduce和HDFS,其中HDFS负责将海量数据进行分布式存储,而MapReduce负责提供对数据的计算结果的汇总。
3.Hadoop起源
2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。
2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
2006年2月被分离出来,成为一套完整独立的软件,起名为Hadoop
Hadoop名字不是一个缩写,而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具象命名的。
Hadoop的成长过程:Lucene–>Nutch—>Hadoop
总结起来,Hadoop起源于Google的三大论文
-
GFS:Google的分布式文件系统Google File System
-
MapReduce:Google的MapReduce开源分布式并行计算框架
-
BigTable:一个大型的分布式数据库
演变关系
-
GFS—->HDFS
-
Google MapReduce—->Hadoop MapReduce
-
BigTable—->HBase
4.Hadoop的四大特性
-
扩容能力(Scalable):Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计个节点中。
-
成本低(Economical):Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
-
高效率(Efficient):通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
-
可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。
5.hadoop的历史版本介绍
-
0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本。
-
1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等。
-
2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性。
6.hadoop三大公司发型版本介绍
-
免费开源版本apache:Apache Hadoop
优点:拥有全世界的开源贡献者,代码更新迭代版本比较快。
缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁都可能考虑不太周到,学习可以用,实际生产工作环境尽量不要使用。
-
免费开源版本hortonWorks:Cloudera | The Hybrid Data Cloud Company
hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),HDF免费开源,并且提供一整套的web管理界面,供我们可以通过web界面管理我们的集群状态,web管理界面软件HDF网址(Ambari -)。
-
软件收费版本ClouderaManager:Cloudera | The Hybrid Data Cloud Company
cloudera主要是美国一家大数据公司在apache开源hadoop的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题,生产环境强烈推荐使用