Hadoop 1.x 和 Hadoop 2.x 有什么区别？

最新推荐文章于 2022-08-16 14:59:50 发布

Shockang

最新推荐文章于 2022-08-16 14:59:50 发布

阅读量1.3w

点赞数 16

分类专栏：大数据技术体系文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/Shockang/article/details/118002178

版权

大数据技术体系专栏收录该内容

285 篇文章

订阅专栏

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

在这里插入图片描述

YARN

Hadoop 和 Hadoop 之间的最大不同是 YARN 。
YARN 是“ Yet Another Resource Negotiator ”的缩写。
Hadoop 仅仅是 HDFS 和 MapReduce 计算框架的组合。
正如我们所看到的，在 Hadoop 中， YARN 位于 HDFS 层(依赖于服务器本地存储)和计算框架(如 MapReduce 、 Spark )之间。
YARN 的主要功能是进行资源管理和调度。
在 Hadoop 中， MapReduce 是你实际可使用的唯一的计算框架，它直接与 HDFS 进行交互。
在 Hadoop 中， MapReduce 以与 Hadoop 中类似的方式执行数据处理。
那么哪个 Hadoop 组件在 Hadoop 中执行了集群资源管理和任务调度呢?
MapReduce 执行数据处理和集群资源管理的双重任务。

架构区别

Hadoop 1 使用 MRvl 而 Hadoop 使用 MRv2 (也称为 YARN )。
在 Hadoop 2 中，有一个全局 ResourceManager 进程来管理集群中的资源，且它运行在主节点上。
工作节点上将有单独的 NodeManager 进程来执行数据处理任务。

在 Hadoop 1 中，有一个单独的进程 JobTracker 来管理作业。
每个工作节点运行个工作于特定节点的 TaskTracker 进程来实际执行作业。
Hadoop 1 中的 JobTracker 负责执行调度和任务管理功能。
在 Hadoop 2 中， JobTracker 被分为调度和资源管理两个功能:

ResourceManager 处理调度任务;
ApplicationMaster 负责特定应用的资源管理。

Hadoop 2 中的 ResourceManager 管理着以前由 Hadoop 中的 JobTracker 执行的几个关键功能。
更准确地说， ResourceManager 执行 JobTracker 的一些任务，新的特定应用的 ApplicationMaster 负责 JobTracker 其余的工作。
在 Hadoop 1 中， JobTracker 在繁忙的集群中超负荷运转，因为它同时负责资源管理和任务调度双重任务。
JobTracker 资源管理和作业调度/监控两个关键功能的分离减轻了专用守护程序的工作压力。

Hadoop 2 中的 NodeManager 执行 Hadoop 中运行在每个节点上的 TaskTracker 负责的所有任务。
NodeManager 进程在集群中的工作节点上运行，并作为代理监视当前节点上任务的执行 ResourceManager 在 Hadoop 中作为纯调度器使用，它与 MapReduce 之间没有特殊连接。
而在 Hadoop 1 中， JobTracker 与 MapReduce 是高度耦合的。

高可用性

Hadoop 2 具有超高的可用性，可让你运行 Standby NameNode 和 Standby ResourceManager 服务，这两者都对集群运行至关重要。

在 Hadoop 1 中， NameNode 只有一个，存在单点故障风险。如果 NameNode 服务器不可用，则对 HDFS 的所有访问都将被中断，导致整个集群不可用。

多计算引擎

在 Hadoop 1 中，无论使用 MapReduce 、 Hive 、 Pig 还是 Python 、 Ruby 的流模型，你只能使用 MapReduce 作为处理引擎。根本没有可用的替代引擎。
Hadoop 2 提供了多种处理引擎，如 MapReduce 、 Apache Spark 、 Apache Tez 等。

Hadoop 2 不仅支持批处理，而且支持多种应用类型，如: