Borg论文翻译以及部分理解

最新推荐文章于 2023-12-13 20:40:55 发布

mengyou0304

最新推荐文章于 2023-12-13 20:40:55 发布

阅读量746

点赞数

Borg论文翻译及理解

Google的borg使用大量机器支持着数千个应用的10W个作业，其中部分单个集群规模超过万台机器。

其通过

提供

Borg 主要得益于三点：

Borg当然不是第一个提出这些问题的软件，但是的确是第一个在如此规模运行的软件。

Borg整体结构图

在Google开发工程师眼中，他们将作业提交到Borg，Borg将他们的作业运行在Borg Cell中。每个Borg Cell可能有多达上万台机器构成。本节主要介绍在开发者眼中的borg。

Borg支持异质的workload，其主要包括两种：

在此文当中，我们将高priority任务称之为Prod（production），其他的则称为non-prod。大部分第一种任务是prod任务，而batch任务大部分则为none-prod任务。

在一个典型的Cell中，prod类型任务占有70%的CPU资源，并利用了其中的60%，同时占用了55%的内存，并使用了其中的85%。

一个Cluster往往用于描述处在同一个机房中的一部分机器，一个Cluster往往具有个Cell，部分Cluster还具有Test Cell以及其他具有其他功能的Cell。

一般一个中等规模的Cell具有1w个左右的机器，而且其中的机器并非同构架机器，可能different in cpu mem dist network。但Borg屏蔽了这些特异性，对于developer而言，一切都是一样的，包括故障处理，监控以及依赖等等。

关注