Metis: Robustly Tuning Tail Latencies of Cloud Systems调节云系统的尾延迟

最新推荐文章于 2023-04-07 11:58:24 发布

机智帅气的葫芦娃

最新推荐文章于 2023-04-07 11:58:24 发布

阅读量561

点赞数 2

分类专栏：论文解读文章标签： metis 自动调参

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/clever_wr/article/details/90606678

版权

论文解读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Metis受到利用BO训练GP回归模型的启发，同时提高了优化系统定制的稳健性。

摘要：

调整参数三大问题：工作负载多、系统规模大、参数空间维度大。
尾延迟等性能指标对非平凡噪声敏感。虽然将目标系统视为黑匣子可以提高适用性，但增加了平衡开发和得到的目标复杂化。
自动调参的动机：
1. 动态变化的工作负载。
2. 系统的规模增加，参数增多。
3. 人工调参成本太高。
Metis是一项自动调整服务，实现了特定的贝叶斯优化并进行自动调整。
1. 诊断模型，用于查找重新采样的潜在数据异常值。
2. 采集功能的混合，以平衡采样，勘探和重新采样。

介绍：

虽然尾延迟似乎很少，但在端到端系统中用户请求遇到尾延迟的可能性很高，特别是采用多级架构大多数Web级应用程序。
与平均延迟相比，尾部延迟可以高出10倍以上。
具有高斯过程（GP）的贝叶斯优化（BO）已经成为用于系统定制的强大的黑盒优化框架。通过回归已经收集的数据点（即基准测试的系统配置）来模拟配置与性能空间，可得到全局最优或最佳性能的系统配置。BO提供了一种提出建议系统配置进行基准测试来实现建立训练数据的方法，其目标是最大限度地提高回归模型的准确性。

提升Metis系统定制的稳健型需要解决以下问题：

我们应该避免不必要地过度采样空间，因为系统基准测试可能是资源密集型和耗时的。在每次迭代时，BO将下一个系统配置选择为基准的策略应该平衡利用（即，包含最优的概率很高的区域）和勘探（即，包含最优的高不确定性的区域）。

总结：

使用Bing Ads键值存储集群作为运行示例，与人工进行数周的手动调整相比。实验结果显示Metis将整体调整时间缩短了98.41％，同时将99％的延迟减少了另外3.43％。

机智帅气的葫芦娃

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。