Hadoop发展史以及版本功能的简介

Mr.小浪

于 2024-03-27 09:00:22 发布

阅读量950

点赞数 19

文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mr_xiaolang/article/details/137046255

版权

Hadoop发展史以及版本、功能的简介

Hadoop概述

Hadoop是Apache基金会旗下的一个开源的分布式计算平台，是基于Java语言开发的，有很好的跨平台特性，并且可以部署在廉价的计算机集群中。

Hadoop的发展史

Hadoop创始人Doug Cutting (道格·卡丁), Doug Cutting 为升级优化Lucene框架创造了最初始的Hadoop缩影

Hadoop 图标起源于Doug Cutting (道格·卡丁)的儿子的玩偶大象

在后面的开发中谷歌的三篇论文加快了Hadoop的发展

《The Google file system》: 谷歌分布式文件系统GFS -> HDFS

《MapReduce: Simpliﬁed Data Processing on Large Clusters》：谷歌分布式计算框架MapReduce

-> MR

《Bigtable: A Distributed Storage System for Structured Data》：谷歌结构化数据存储系统

-> HBase

终于在2006年，Map-Reduce和Nutch Distributed File System（NDFS）分别被纳入到Hadoop项目中，Hadoop就此正式诞生，标志着大数据时代来临

Hadoop的发行版本

Hadoop发行版本分为开源社区版和商业版

开源社区版本： Apache
优点：有着大量的开发者研发，更新迭代版本最新，并且免费下载

缺点 : 没有版本的维护，版本的兼容各项指标不稳定，不能为公司的项目提供稳定的环境

商业版本：Cloudera(CDH)

优点：实现版本之间的稳定运行，大数据生态圈的各个版本的软件都提供了对应的版本，解决了版本的升级困难，版本兼容性等各种问题

缺点：需要收费

Hadoop的各版本简介

1.0版本系列: 内核主要由 HDFS(存储)和MapReduce(计算和资源调度)

2.0版本系列: 架构产生重大变化，引入了Yarn平台等许多新特性 Hadoop组成: HDFS(存储)和MapReduce(计算)和YARN(资源调度)

3.0版本系列: 升级了java的搭载版本以及提升了处理速率 Hadoop组成: HDFS(存储)和MapReduce(计算)和YARN(资源调度)

Hadoop框架简介

Hadoop1.0

底层是 HDFS 做数据分布式储存

上面是 Map Reduce 做数据库处理和集群资源调度

Hadoop 2.0

底层是 HDFS 做数据分布式储存

上面是 Yarn 集群资源调度

Yarn 上面是 Map reduce 和 Other Processing

map reduce 做数据处理 other processing 其它进程

Yarn 为 Map Reduce做资源调度还为其它进程做调度

Hadoop各组件详情介绍

HDFS存储数据：
（元数据是储存到内存中的，占用150个字节）
（Hadoop的高可用是为了解决name node 故障问题）
（NameNode 是基于edits（日志文件的储存）和fsimage（镜像文件，是edits的文件总和）配合完成它的工作）
（Scondary NameNode 会定期的从Name NODE中拉取数据然后合并edits成为fsimage，提供给Nmae NODE使用）
NAME NODE主节点：接收计算机传达的信息，储存元数据，分配储存任务给从节点
Scondary NameNode二次节点: 辅助主节点工作，提高主节点工作效率，同时在必要的时候可以辅助主节点恢复数据

DateNode从节点：执行主节点分配的储存任务，储存各种业务数据

YARN资源调度：

Resource Manager: 接收计算机的计算请求任务，为任务管理节点分配管理负责区域

Node Manager：被分配管理区域后对接当下的主节点执行任务

MapReduce数据计算：从HDFS中获取海量的数据进行拆分，再对拆分成各块的数据进行计算，最后对各块计算完的数据进行数据总结从而得出结果

以上就是小浪本次发布的内容，如果对友友您有帮助，还麻烦您给小浪点个关注和赞，这是对小浪莫大的支持，蟹蟹友友们，小浪还会持续更新，分享自己在学习整个过程中遇到的问题！

关注

19
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Mr.小浪 CSDN认证博客专家 CSDN认证企业博客

码龄2年

7: 原创

141万+: 周排名

16万+: 总排名

9850: 访问

: 等级

305: 积分

148: 粉丝

234: 获赞

10: 评论

133: 收藏

私信

关注

热门文章

最新评论

开窗函数的详细的介绍
CSDN-Ada助手: 恭喜用户在博客中详细介绍了开窗函数，这对于读者来说非常有帮助！希望用户能继续保持创作的热情和耐心，不断分享更多有趣且有深度的内容。下一步可以考虑探讨开窗函数在不同数据处理场景下的应用，或者结合实际案例进行分析，让读者更容易理解和应用这一概念。期待用户未来更多精彩的文章！
开窗函数的详细的介绍
Mr.小浪: 如果有哪些不懂的问题或者哪些不对的地方，友友们可以提出来，我看到后立即整改回复
Hive 框架的基础介绍以及数据库和数据仓库的概述
CSDN-Ada助手: 恭喜您在第6篇博客中详细介绍了Hive框架以及数据库和数据仓库的概述，内容十分丰富和有深度。希望您能继续保持这样的创作热情，不断提升自己的专业水平。建议您在下一篇博客中可以深入探讨Hive框架的应用实例，或者结合实际案例进行分析，让读者更好地理解和运用相关知识。期待您的更多精彩内容，加油！
Hadoop三大“金刚”完美剖析 ─────── HDFS、MapReduce、YARN
CSDN-Ada助手: 恭喜用户写了这么有深度的博客，对Hadoop三大“金刚”进行了完美剖析！希望您能继续保持创作的热情和耐心，为读者带来更多优质的内容。下一步建议可以考虑深入探讨Hadoop在大数据领域的应用案例，或者对新技术的前沿进行探索，这样可以为读者带来更多启发和帮助。期待您的下一篇作品！
Hadoop三大“金刚”完美剖析 ─────── HDFS、MapReduce、YARN
Mr.小浪: 如果以上内容有哪些不对的地方，希望各位大佬指点小浪，小浪吸收后，立即修改文章，如果有哪个知识点模糊的友友，希望你在评论区提出来，小浪看到后，会第一时间为你解答，谢谢

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。