【深入理解Hadoop之一】 Hadoop1.0，2.0，3.0区别

最新推荐文章于 2025-02-27 16:59:33 发布

BJX-XVII

最新推荐文章于 2025-02-27 16:59:33 发布

阅读量8.4k

点赞数 3

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34696236/article/details/84308457

版权

大数据专栏收录该内容

16 篇文章

订阅专栏

本文详细对比了Hadoop 2.x与3.x版本的主要区别，包括HDFS的HA机制和Federation特性，MapReduce的YARN框架，以及3.x版本的Java运行环境升级、HDFS纠删码支持、YARN时间线服务增强、多NameNodes支持和MapReduce本地优化等关键更新。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.X，2.X区别：

从HDFS角度来看：

1：Hadoop2.0新增了HDFS HA机制，HA增加了standbynamenode进行热备份，解决了1.0的单点故障问题。

2：Hadoop2.0新增了HDFS federation，解决了HDFS水平可扩展能力。

允许有多个namenode独立运行组成联邦。每个datanode向所有name进行注册。

每个namenode维护一个命名空间卷（互相独立）上层通过一个挂载表组织来访问数据。

命名空间卷：包括池块和命名空间元数据

块池：逻辑概念，该命名空间文件的所有块；可能在不同机器上。

命名空间元数据：命名空间元数据

这两个特性会在之后的文章中提到。

从mapreduce角度来看：

2.0相比于1.0 新增了YARN框架，Mapreduce的运行环境发生了变化

在1.0中：由一个JobTracker和若干个TaskTracker两类服务组成，其中JobTracker负责资源管理和所有作业的控制，TaskTracker负责接收来自JobTracker的命令并执行它。所以MapReduce即是任务调度框架又是计算框架，1.0中会出现JobTracker大包大揽任务过重，而且存在单点故障问题，并且容易出现OOM问题，资源分配不合理等问题。

在2.0中：MASTER端由ResourceManager进行资源管理调度，有ApplicationMaster进行任务管理和任务监控。SLAVE端由NodeManager替代TaskTracker进行具体任务的执行，所以MapReduce2.0只是一个计算框架，具体资源调度全部交给Yarn框架。

2.X和3.X最主要区别：

1：Java运行环境升级为1.8；

2：HDFS支持纠删码：

纠删码相比于副本机制节省了一半以上的存储空间，普通副本机制需要3倍存储空间而这种机制只需1.4倍即可。

3：:YARN时间线服务:

4：支持多余2个以上的NameNodes

3.0支持单active namenode+多standby namenode部署方式进一步提升了可用性。

5：MapReduce本地优化，性能提升了30%。

最后相比于1.0和2.0，3.0在实际使用过程中比较不稳定。

欢迎指正和补充

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。