Borg：Google集群管理大杀器

最新推荐文章于 2023-03-17 21:40:55 发布

「已注销」

最新推荐文章于 2023-03-17 21:40:55 发布

阅读量771

点赞数

文章标签： java 分布式 kubernetes 数据库 hadoop

本文链接：https://blog.csdn.net/u011387521/article/details/108231931

版权

Borg是Google的集群管理系统，负责管理大规模任务调度，提供资源隔离和高可用性。通过Borgmaster、scheduler和Borglet组件实现分布式集群的高效运行。Borg使用Paxos协议确保高可用，其调度策略涉及复杂优先级和公平性考虑，任务在Linux CGroup容器中运行，保障隔离性。Kubernetes的设计理念与Borg有密切联系。

摘要由CSDN通过智能技术生成

论文研读系列是阅读、总结计算机领域优秀论文的系列文章。由于论文的学术性较高，无法面面俱到，只会就关键思想进行概括介绍。

简介

Google的Borg集群系统需要管理数十万个jobs，要能够提高资源使用率、隔离性，通过调度策略降低关联故障发生率，通过声明式job描述语言简化复杂性。

Borg提供三个主要优势：

1.隐藏资源管理与故障处理的细节，用户可以集中在应用开发上2.高可用、高稳定3.O(10000)机器规模内高效任务调度

整体架构

Borg系统主要由以下构成：

1.一系列机器2.本地中心化控制器Borgmaster3.每台机器上运行的客户端Borglet

Borgmaster

Borgmaster包含两个组件：master进程和scheduler。master用于处理客户端的RPC请求，改变集群中的资源状态或者响应数据只读访问请求。master还负责管理系统中的状态(machines,task,allocs...)，和Borglet通信，提供web UI。

在容错上，Borgmaster实际上有5个副本，逻辑上只有一个，通过Paxos协议选举逻辑上的leader。从选举leader到恢复数据大约要10s。master还会把自身某时刻的状态作为checkpoint存储到paxos store中。

scheduling

当提交job时，borgmaster将它记录到paxos store中，并加入到task的pending queue。scheduler会扫描获取任务，然后调度到满足其需求的机器上。扫描过程是相对复杂的，论文中是这样说的：

the scan proceeds from high to low priority, modulated by a round-robin scheme within a priority to ensure fairness across users and avoid head-of-line blocking behind a large job.

自己目前还不是太理解。

调度算法分为两部分：

1.feasibility checking，可行性检查，判断机器是否满足task的要求2.scoring，通过对满足条件1中的机器打分，选择最合适的那个

这样一来，调度器的任务就是一个不断重复下面的流程：

1.从master抓取状态变更2.更新本地状态拷贝3.执行任务调度4.通知master自己的调度情况

整个过程就像有钱人的生活，枯燥又无味...