MArk: Exploiting Cloud Services for Cost-Effective,SLO-Aware Machine Learning Inference Serving

最新推荐文章于 2024-07-22 21:21:48 发布

Liasplf

最新推荐文章于 2024-07-22 21:21:48 发布

阅读量427

点赞数 10

文章标签：人工智能 ai 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51802743/article/details/135838859

版权

优化目标：SLO合规性、成本效益

采取三大措施：1、动态性地对请求做批处理，2、使用预测性自动放缩来以低成本隐藏配置延迟，3、根据推理服务的无状态特性，使用无服务实例来处理难以预测的高请求率时刻

要建立一个Model Ark系统，提供低延迟、成本效益好的推理服务系统

大致是利用IaaS的成本效益好的特性，再利用FaaS的（高扩展性）突发请求处理能力（）

对于EC2、ECS而言配置开销时间长，特别是加载大模型时，高启动开销，需要数十秒的启动开销，而FaaS能够快速生成推理实例并处理请求，而不会产生额外的开销

后续对IaaS，CaaS，FaaS的成本效益做出评价，最终选择IaaS作为主要model serving基础，再结合FaaS的高扩展性；后续还考量了IaaS在不同CPU类型下，不同IaaS实例大小情况下的工作性能，以及CPU,GPU,TPU的推理延迟和成本消耗，最后选出小型IaaS实例，并且采用GPU有更好的成本效益以及低处理延迟

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
MArk: Exploiting Cloud Services for Cost-Effective,SLO-Aware Machine Learning Inference Serving

后续对IaaS，CaaS，FaaS的成本效益做出评价，最终选择IaaS作为主要model serving基础，再结合FaaS的高扩展性；后续还考量了IaaS在不同CPU类型下，不同IaaS实例大小情况下的工作性能，以及CPU,GPU,TPU的推理延迟和成本消耗，最后选出小型IaaS实例，并且采用GPU有更好的成本效益以及低处理延迟。对于EC2、ECS而言配置开销时间长，特别是加载大模型时，高启动开销，需要数十秒的启动开销，而FaaS能够快速生成推理实例并处理请求，而不会产生额外的开销。
复制链接

扫一扫

Liasplf CSDN认证博客专家 CSDN认证企业博客

码龄4年

12: 原创

125万+: 周排名

7万+: 总排名

6906: 访问

: 等级

274: 积分

104: 粉丝

152: 获赞

1: 评论

144: 收藏

私信

关注

热门文章

最新评论

AdaInf: Data Drift Adaptive Scheduling for Accurate andSLO-guaranteed Multiple-Model Inference Serv
CSDN-Ada助手: 非常赞赏你写的这篇博客！你对AdaInf的描述非常清晰，我很期待你未来更多的创作。除了你在标题和摘要中提到的内容，我想分享一些和本文相关的扩展知识和技能。在多模型推理服务中，除了考虑数据漂移和推理延迟，还可以尝试以下技术： 1. 模型压缩：通过压缩模型大小和优化计算图结构，可以减少模型推理所需的计算资源和内存消耗，提高推理速度和效率。 2. 模型融合：将多个模型融合为一个更复杂的模型，可以提高模型的准确性和泛化能力，同时减少推理过程中的开销。 3. 异构计算：利用不同类型的计算设备（如GPU、TPU和FPGA）进行并行计算，可以进一步提升推理性能和效率。 4. 自动化调度：通过自动化调度算法和策略，动态地分配计算资源和优化任务调度顺序，可以提高系统的整体性能和响应速度。希望以上信息对你有所帮助，期待看到你在这些领域的深入探索和分享！继续努力，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
DELTAZIP: Multi-Tenant Language Model Serving via Delta Compression
CSDN-Ada助手: 恭喜您开始博客创作！标题“DELTAZIP: Multi-Tenant Language Model Serving via Delta Compression”非常吸引人，我对您的研究颇感兴趣。您对多租户语言模型服务以及增量压缩的探索令人印象深刻。在接下来的创作中，我建议您可以进一步探讨DELTAZIP的具体实现细节，例如您是如何实现增量压缩和多租户模型服务的。此外，您还可以考虑分享一些实际应用场景，以及可能的性能改进和优化方法。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。