Google集群管理系统Omega详细解读

最新推荐文章于 2024-05-12 21:34:34 发布

Shao Kaiyang

最新推荐文章于 2024-05-12 21:34:34 发布

阅读量4k

点赞数

分类专栏：资源管理与任务调度文章标签： omega google

本文链接：https://blog.csdn.net/Kaiyang_Shao/article/details/89950771

版权

Omega是Google提出的一种解决大规模集群调度可扩展性和响应时间问题的系统。它通过多个调度器共享全量资源信息并发调度，采用无锁乐观并发控制，提高并发度和扩展性。Omega对比了集中式、静态划分和两层调度系统，旨在提供更高的资源利用率、快速决策和公平性。其设计灵感已被应用于腾讯的调度系统。

摘要由CSDN通过智能技术生成

0. 前言

本文根据 Omega论文整理总结得到

一个灵活可扩展的大规模集群调度系统，其出现主要用于解决可扩展性问题以及一些任务对于响应时间的高要求。在Omega出现之前我们知道有两个典型的资源管理和调度框架，分别是YARN和Mesos，这两个系统虽然是两层的调度系统，但是其master节点仍然是集群进行大规模扩展的瓶颈，如果集群规模很大，那么对于某些请求将不能及时作出回应。同时这两个调度系统只是根据当前的情况进行资源分配，其分配的结果也不能保证全局最优。

omega的出现就是为了解决这个问题，其设计的核心主要包含两个方面。第一，在调度系统中存在多个调度器，这些调度器中缓存集群资源的全量信息，可以单独进行调度，这种方式可以显著提高集群的并发度和扩展性。第二，采用无锁乐观并发的方式进行资源分配，每个调度器根据集群当前的全量资源信息进行调度，并将调度的结果发送给控制节点，由控制节点根据其分配的资源是否已经被占用来决定是否允许本次分配。如果资源已经被占用，则返回失败结果，调度器可以再进行分配。在这个过程中每个调度器中都需要维护一个全量的资源信息。

目前该系统并没有真正的运用到实践当中，论文并没有针对Omega的架构进行详细说明，论文主体主要是分析对比目前调度系统的优缺点，以及通过实验的方式证明共享状态调度架构的优势，其实验结果也是基于模拟的。但是从borg的论文中可以得知，在borg系统中的资源分配模块就是利用了Omega的思想，但是具体的实现细节并没有公布。

1. abstract & introduction

背景：

最低0.47元/天解锁文章

Shao Kaiyang

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Google集群管理系统Omega详细解读

0. 前言本文根据 Omega论文整理总结得到一个灵活可扩展的大规模集群调度系统，其出现主要用于解决可扩展性问题以及一些任务对于响应时间的高要求。在Omega出现之前我们知道有两个典型的资源管理和调度框架，分别是YARN和Mesos，这两个系统虽然是两层的调度系统，但是其master节点仍然是集群进行大规模扩展的瓶颈，如果集群规模很大，那么对于某些请求将不能及时作出回应。同时这两个调度系统...
复制链接

扫一扫

专栏目录