hadoop概念和版本问题

1、Hadoop概念

Hadoop: 适合大数据的分布式存储和计算平台 
它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS) 
HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

2、起源

Hadoop起源于Google的三大论文 

  • GFS:Google的分布式文件系统Google File System 
  • MapReduce:Google的MapReduce开源分布式并行计算框架 
  • BigTable:一个大型的分布式数据库

演变关系 

  • GFS—->HDFS 
  • Google MapReduce—->Hadoop MapReduce 
  • BigTable—->HBase

3、版本问题

当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成;而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。

 目前Hadoop的发行版除了Apache的开源版本之外,还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些发行版均是基于Apache Hadoop衍生出来的,因为Apache Hadoop的开源协议允许任何人对其进行修改并作为开源或者商业产品发布。国内大多数公司发行版是收费的,比如Intel发行版、华为发行版等。不收费的Hadoop版本主要有国外的四个,分别是Apache基金会hadoop、Cloudera版本(CDH)、Hortonworks版本(HDP)、MapR版本。

针对初学者使用CHD版本比较好,可以省去很多麻烦。

 

参考:

https://www.cnblogs.com/meet/p/5435979.html

https://www.cnblogs.com/jinhaolin/p/6750295.html

https://blog.csdn.net/xiangxizhishi/article/details/75711242

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值