为什么会产生 YARN 它解决了什么问题

于 2023-10-25 22:13:39 发布

阅读量277

点赞数

文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/2302_77630591/article/details/134044893

版权

YARN（Yet Another Resource Negotiator）是Hadoop生态系统中的一个重要组件，它的出现主要是为了解决早期版本中的一些问题，并提供更好的资源管理和作业调度能力。

在早期的Hadoop版本中，MapReduce框架充当了资源管理和作业调度的角色。这种情况下，资源管理和作业调度的逻辑紧密耦合在一起，导致了一些限制和问题：

单一调度器：早期的Hadoop只支持一种全局调度器，无法满足不同作业的不同调度需求，如优先级、资源分配策略等。这限制了集群资源的灵活利用。
低效的资源利用：由于MapReduce框架以作业为单位进行资源调度，可能出现某个作业占用大量资源但处理速度较慢，而其他作业需等待较长时间才能开始执行，导致资源利用率下降。

为了解决以上问题，YARN被引入到Hadoop中。YARN将资源管理和作业调度等功能从MapReduce中拆分出来，形成了一个独立的资源管理平台，具有以下特点和优势：

多调度器支持：YARN支持多种调度器，如容量调度器（Capacity Scheduler）、公平调度器（Fair Scheduler）等，可以根据需求选择合适的调度算法和策略，实现对集群资源的更精细管理和调度。
分离计算框架：YARN将资源管理和作业调度与具体的计算框架解耦，不再限定于MapReduce，使得Hadoop生态系统可以支持多个计算框架，如Spark、Hive、Flink等。这样，用户可以选择最适合自己需求的计算框架，提高了灵活性和可用性。
高效的资源利用：YARN引入了容器（Container）的概念，将物理机的资源划分为多个容器，每个容器可以执行一个任务。这种隔离的机制使得资源可以更加细粒度地分配和利用，避免作业间的资源竞争，提高了资源利用率。

总结来说，YARN的出现主要是为了解决早期Hadoop中的一些问题，如单一调度器、低效的资源利用等。通过将资源管理和作业调度拆分成独立的模块，YARN架构更加灵活、可扩展，使得Hadoop生态系统可以支持多计算框架，并提供更高效、更灵活的资源管理和作业调度能力

关注