Hadoop的介绍以及发展历史

程序员学习圈

已于 2022-02-23 16:00:46 修改

阅读量2.5k

点赞数

分类专栏： # Hadoop 文章标签： hadoop mapreduce big data

于 2018-05-15 08:52:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luomingkui1109/article/details/80317890

版权

Hadoop 专栏收录该内容

36 篇文章 1 订阅

订阅专栏

目录

2.Hadoop是什么

4.Hadoop的四大特性

5.hadoop的历史版本介绍

6.hadoop三大公司发型版本介绍

1.Hadoop介绍

狭义上来说，hadoop就是单独指代hadoop这个软件，

广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件

2.Hadoop是什么

Hadoop是大数据的分布式存储和计算平台。它不是指具体一个框架或者组件，它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。

Hadoop1.x中包括两个核心组件：MapReduce和HDFS，其中HDFS负责将海量数据进行分布式存储，而MapReduce负责提供对数据的计算结果的汇总。

3.Hadoop起源

2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。

2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

2006年2月被分离出来，成为一套完整独立的软件，起名为Hadoop

Hadoop名字不是一个缩写，而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具象命名的。

Hadoop的成长过程：Lucene–>Nutch—>Hadoop

总结起来，Hadoop起源于Google的三大论文

GFS：Google的分布式文件系统Google File System
MapReduce：Google的MapReduce开源分布式并行计算框架
BigTable：一个大型的分布式数据库

演变关系

GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase

4.Hadoop的四大特性

扩容能力（Scalable）：Hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可用方便的扩展到数以千计个节点中。
成本低（Economical）：Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低。
高效率（Efficient）：通过并发数据，Hadoop可以在节点之间动态并行的移动数据，使得速度非常快。
可靠性（Rellable）：能自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

5.hadoop的历史版本介绍

0.x系列版本：hadoop当中最早的一个开源版本，在此基础上演变而来的1.x以及2.x的版本。
1.x版本系列：hadoop版本当中的第二代开源版本，主要修复0.x版本的一些bug等。
2.x版本系列：架构产生重大变化，引入了yarn平台等许多新特性。

6.hadoop三大公司发型版本介绍

免费开源版本apache：Apache Hadoop

优点：拥有全世界的开源贡献者，代码更新迭代版本比较快。

缺点：版本的升级，版本的维护，版本的兼容性，版本的补丁都可能考虑不太周到，学习可以用，实际生产工作环境尽量不要使用。

免费开源版本hortonWorks：Cloudera | The Hybrid Data Cloud Company

hortonworks主要是雅虎主导Hadoop开发的副总裁，带领二十几个核心成员成立Hortonworks，核心产品软件HDP（ambari），HDF免费开源，并且提供一整套的web管理界面，供我们可以通过web界面管理我们的集群状态，web管理界面软件HDF网址（Ambari -）。

软件收费版本ClouderaManager:Cloudera | The Hybrid Data Cloud Company

cloudera主要是美国一家大数据公司在apache开源hadoop的版本上，通过自己公司内部的各种补丁，实现版本之间的稳定运行，大数据生态圈的各个版本的软件都提供了对应的版本，解决了版本的升级困难，版本兼容性等各种问题，生产环境强烈推荐使用

程序员学习圈

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

程序员学习圈 CSDN认证博客专家 CSDN认证企业博客

码龄8年

651: 原创

2万+: 周排名

174万+: 总排名

104万+: 访问

: 等级

1万+: 积分

839: 粉丝

563: 获赞

113: 评论

1927: 收藏

私信

关注

热门文章

分类专栏

最新评论

元数据与数据治理|Apache Atlas 类型系统与Rest API
、小H: 请问一下atlas重启耗时3小时怎么解决，数据量大概在200w左右
深入对比数据仓库模式：Kimball vs Inmon
bandazhenixn: 如果维度模型是指这两个概念，那他们毫无作用，根本没有解决问题。BI首先是性能问题，顺带解决业务抽象问题，你提到的都没有解决这两个问题
深入对比数据仓库模式：Kimball vs Inmon
yunn6570: 言简意赅
脑裂是什么？Zookeeper是如何解决的？
恋喵大鲤鱼: 你有没有想过，如果分区有 5 个节点，被划分成 2 和 3 个节点。3 个节点中因为有大多数节点，是会选举出新的 Leader 的吧。
脑裂是什么？Zookeeper是如何解决的？
恋喵大鲤鱼: “这种情况下整个集群当机房间的网络断掉后，整个集群将没有Leader。” 想问下，机房 1 不是有老的 Leader 么，为什么说没有 Leader 呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序员学习圈 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。