Understanding and Optimizing Workloads for Unified Resource Management in Large Cloud Platforms—论文阅读

妙BOOK言

于 2024-03-04 11:06:12 发布

阅读量1k

点赞数 26

分类专栏：论文阅读文章标签：论文阅读调度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36159989/article/details/136446849

版权

论文阅读专栏收录该内容

315 篇文章

订阅专栏

EuroSys 2023 Paper 论文阅读笔记整理

问题

为了充分利用计算资源，谷歌和阿里巴巴等云提供商选择在其数据中心将在线服务与批处理应用程序放在一起。通过实施统一的资源管理策略，不同类型的复杂计算作业以一致的方式请求资源，帮助数据中心实现全局最优调度，并提供更高质量的计算能力。

分析

为了理解统一的资源管理策略，本文对阿里巴巴的统一调度工作负载进行了深入研究。我们的研究重点是资源利用率、应用程序运行性能和调度可扩展性的特征。

阿里云跟踪数据：GitHub - alibaba/clusterdata: cluster data collected from production clusters in Alibaba for cluster management research

生产工作负载的特征

统一调度通过在适当的时间调度尽力而为（BE）应用程序（如批处理作业[10]），将填谷和削峰相结合，不仅可以为延迟敏感（LS）应用程序（如微服务[35]）提供性能保证，而且可以在LS工作负载较低时提高利用率。
尽管峰值负载发生了变化，但总体资源利用率仍然很低，平均不到30%。
有很长的调度延迟等待CPU和内存资源，并且调度延迟遵循重尾分布。
现有的资源使用预测因素往往会做出严重的高估。
同一应用程序中的任务表现相近，可以根据相应物理主机上的资源争用来很好地分析任务的运行性能。
通过机器学习算法，可以根据QPS、pod资源利用率、主机资源利用率、相对于pod和主机资源使用率，来配置每个延迟敏感应用的压力停止信息（PSI）。

本文方法

本文设计了Optum，一种统一的数据中心调度器，用于提高整体资源利用率，同时确保每个应用程序的良好性能。

实现了一个更准确的预测器来预测每个物理机器上的未来资源使用情况。原理是，来自不同应用程序的任何两个pod的总资源使用量的峰值远低于这两个pod峰值使用量的总和。因此，预测器结合了所有pod对的资源使用估计，以产生更准确、更紧凑的预测。
制定了一个优化问题来调度统一的任务请求，旨在平衡利用率和资源争用。
实现了高效的启发式算法，以可扩展的方式解决优化问题。

大规模实验表明，与最先进的统一调度方案相比，Optum可以节省高达15%的资源，而不会降低性能。

实验

数据集：阿里巴巴数据中心的工作负载，包含10000多个应用程序在8天内提交的100万个pod，这些应用程序运行在约6000台物理主机上。此外，Optum的评测器使用pod在前七天的运行数据来构建学习模型。

实验对比：预测准确率、资源利用率、PSI、任务完成时间、参数设置、调度开销

总结

对大型数据中心的统一调度工作负载进行了全面的分析，提出了生产工作负载的一些特征：统一调度尽力而为（BE）和延迟敏感（LS）应用程序，可以提供性能保证和高资源利用率；目前生产环境总体资源利用率很低，平均不到30%；现有调度器有很长的调度延迟，并且调度延迟遵循重尾分布；现有的资源预测器不准确，往往会严重高估；同一应用程序中的任务表现相近，可以根据相应物理主机上的资源争用来很好地分析任务的运行性能；通过机器学习算法，可以根据QPS、pod资源利用率、主机资源利用率、相对于pod和主机资源使用率，来配置每个延迟敏感应用的压力停止信息（PSI）。

设计了一个统一调度器Optum，关键之处在于基于机器学习实现了准确的资源使用预测。基于此构建了一个全局优化框架，以最大限度地提高资源利用率，同时确保应用程序性能。同时优化可扩展性，降低调度开销。

博客等级

码龄9年

338
原创

4690
点赞

4748
收藏

3372
粉丝

关注

私信

热门文章

分类专栏

论文阅读 315篇
杂项 8篇
LeetCode 15篇

最新评论

Compute Express Link (CXL): An Open Interconnect for Cloud Infrastructure——论文阅读
我不是上帝的宠儿: 【Compute Express Link (CXL): An Open Interconnect for Cloud Infrastructure——论文阅读 - CSDN App】https://blog.csdn.net/qq_36159989/article/details/136808094?sharetype=blog&shareId=136808094&sharerefer=APP&sharesource=weixin_43969153&sharefrom=link学长，你的这篇论文是怎么下载的呀，我刚考上研，老师让我调研下CXL领域的进展，我找不到这篇论文，其他好几个也找不到
CrossPrefetch: Accelerating I/O Prefetching for Modern Storage——论文泛读
立名: 你好，我想问一下这篇论文的名字就是“CrossPrefetch: Accelerating I/O Prefetching for Modern Storage”它么，我可以在哪里找到这篇论文
SmartQuant: CXL-based AI Model Store in Support of Runtime Configurable Weight Quantization——论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
We Ain’t Afraid of No File Fragmentation: Causes and Prevention of Its Performance Impact...——论文泛读
2301_80820681: 作者复现了这篇论文吗
Ethane: An Asymmetric File System for Disaggregated Persistent Memory——论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

妙BOOK言 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。