1、Hadoop概念
Hadoop: 适合大数据的分布式存储和计算平台
它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS)
HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
2、起源
Hadoop起源于Google的三大论文
- GFS:Google的分布式文件系统Google File System
- MapReduce:Google的MapReduce开源分布式并行计算框架
- BigTable:一个大型的分布式数据库
演变关系
- GFS—->HDFS
- Google MapReduce—->Hadoop MapReduce
- BigTable—->HBase
3、版本问题
当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成;而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。
目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些发行版均是基于Apache Hadoop衍生出来的,因为Apache Hadoop的开源协议允许任何人对其进行修改并作为开源或者商业产品发布。国内大多数公司发行版是收费的,比如Intel发行版、华为发行版等。不收费的Hadoop版本主要有国外的四个,分别是Apache基金会hadoop、Cloudera版本(CDH)、Hortonworks版本(HDP)、MapR版本。
针对初学者使用CHD版本比较好,可以省去很多麻烦。
参考:
https://www.cnblogs.com/meet/p/5435979.html
https://www.cnblogs.com/jinhaolin/p/6750295.html
https://blog.csdn.net/xiangxizhishi/article/details/75711242