Hadoop1X，Hadoop2X和hadoop3X有很大的区别么？

浪尖聊大数据-浪尖

于 2024-04-20 18:58:24 发布

阅读量502

点赞数 4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rlnlo2pnefx9c/article/details/138019589

版权

Hadoop的演进从Hadoop 1到Hadoop 3主要是为了提供更高的效率、更好的资源管理、更高的可靠性以及对更多数据处理方式的支持。下面是Hadoop 1, Hadoop 2, 和 Hadoop 3之间的主要区别和演进的原因：

Hadoop 1

特点：

主要包括两大核心组件：HDFS（Hadoop Distributed File System）和MapReduce。
Hadoop 1的资源管理和作业调度都由JobTracker完成，JobTracker同时负责资源管理和作业监控。

局限性：

单点故障：NameNode是HDFS的单点故障。如果NameNode宕机，整个系统将无法使用。
可扩展性：由于所有的资源管理和调度任务都由JobTracker管理，当集群规模增大时，JobTracker的性能成为瓶颈。
资源利用率：MapReduce作业中Map任务和Reduce任务不能独立扩展，导致资源利用率不高。
只支持MapReduce计算模型，不适用于其他类型的计算任务，如图处理、迭代计算等。

Hadoop 2

主要改进：

引入了YARN（Yet Another Resource Negotiator），将资源管理和作业调度的功能分开：
- ResourceManager：负责系统的资源管理。
- ApplicationMaster：每个应用程序（如一个MapReduce作业）有其自己的ApplicationMaster，负责该应用的资源协调和监控。
支持了NameNode的高可用性配置，可以通过配置活动和备用NameNode来防止单点故障。

优点：

更好的资源管理：允许更灵活的资源分配，提高资源利用率。
可扩展性：ResourceManager仅管理资源，而不负责作业调度，极大提高了系统的扩展性。
多框架支持：除了MapReduce，还可以支持其他计算框架，如Apache Spark、Apache Tez等。

Hadoop 3

主要改进：

支持更多的NameNode和更高的可扩展性，允许构建更大的集群。
增加了Erasure Coding（纠删码），提高了存储效率，降低了存储成本。
改进了YARN资源管理模型，增加了对Docker容器的支持。

优点：

更高的数据存储效率：通过Erasure Coding，相比Hadoop 2使用的三份数据复制，可以节省大量的存储空间。
更大的集群规模：支持更多的数据节点和更大的集群。
更强的资源管理：引入了更多的调度策略和容器化支持，使得资源管理更加灵活。

为什么这样演进

Hadoop的这些演进主要是为了解决早期版本中存在的问题，如资源管理效率低下、系统可扩展性差、对新类型计算模型支持不足等。随着数据处理需求的多样化和技术的发展，Hadoop不断演进以满足更高效、更可靠、更灵活的大数据处理需求。

浪尖聊大数据-浪尖

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Hadoop1X，Hadoop2X和hadoop3X有很大的区别么？

Hadoop的演进从Hadoop 1到Hadoop 3主要是为了提供更高的效率、更好的资源管理、更高的可靠性以及对更多数据处理方式的支持。下面是Hadoop 1, Hadoop 2, 和 Hadoop 3之间的主要区别和演进的原因：Hadoop 1特点：主要包括两大核心组件：HDFS（Hadoop Distributed File System）和MapReduce。Hadoop 1的资源管理和作...
复制链接

扫一扫

浪尖聊大数据-浪尖 CSDN认证博客专家 CSDN认证企业博客

码龄7年

245: 原创

1万+: 周排名

1249: 总排名

200万+: 访问

: 等级

1万+: 积分

2526: 粉丝

1232: 获赞

495: 评论

5171: 收藏

私信

关注

热门文章

分类专栏

spark 98篇
flink 98篇
数据仓库 127篇
kafka 63篇
hbase 47篇
hive 41篇
hadoop 16篇
kylin 25篇
java面试题 83篇
linux 32篇
flume 3篇

最新评论

一文精通flinkOnYarn
gggidt: 一个集群中如何启动多个yarn session 呢？我启动2个后，其中一个状态是running ,另外一个一直是ACCEPTED，这是什么意思呢
一文精通flinkOnYarn
gggidt: 我使用的1.17版本，yarn-session.sh 中没有 -n参数了。
Flink 1.15 新功能架构解析：高效稳定的通用增量 Checkpoint
sss punch: 不敢上生产，1.15还是老实用普通的增量ckp吧
讲一些关于Spark的Broadcast你不知道的细节
韭菜盒子123: 请问一下，broadcast和cache在功能上有什么区别呢
深入分析Druid存储结构
get it now: 说下我的看法，我记得入库逻辑是segment内部有一套自己的编码值，不同的segment之间的编码值可能不一样，所以针对不同segment的查询结果进行聚合应该是使用的原始维度值

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。