iGniter: Interference-Aware GPU ResourceProvisioning for Predictable DNN Inference inthe Cloud

最新推荐文章于 2024-07-22 21:21:48 发布

Liasplf

最新推荐文章于 2024-07-22 21:21:48 发布

阅读量363

点赞数 8

文章标签： dnn 人工智能神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51802743/article/details/135838749

版权

文章指出在使用多进程服务（MPS）技术来实现GPU资源的空间共享时，不同的DNN推理任务之间会产生的性能干扰问题。性能干扰会导致推理任务的延迟增加，从而影响用户体验和服务质量。导致性能干扰的三个主要因素是：1、GPU调度器对内核的调度延迟增加2、GPU L2缓存空间的严重争用3、由于功率限制而导致的GPU频率降低（功率消耗上升导致频率下降）

本文提出的iGniter，一个基于轻量级的性能干扰模型和主动的干扰缓解策略的GPU资源分配框架，旨在实现可预测的DNN推理性能，同时降低云端的推理成本

性能干扰分析模型：利用一组关键的系统和工作负载指标（GPU L2缓存利用率、内核数量）来表征GPU调度器、GPU L2缓存空间和GPU功耗的严重竞争，以及它们与共同定位的工作负载之间的干扰程度

GPU资源配置策略：利用推理性能模型来计算每个工作负载的合适的批处理大小和分配的GPU资源的下限，然后贪心地选择具有最小性能干扰的GPU设备来放置工作负载，并为每个工作负载分配GPU资源

基于NVIDIA Triton推理服务器实现的iGniter系统，包含三大模块：推理负载放置器、GPU资源分配器、推理性能预测器

关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
iGniter: Interference-Aware GPU ResourceProvisioning for Predictable DNN Inference inthe Cloud

文章指出在使用多进程服务（MPS）技术来实现GPU资源的空间共享时，不同的DNN推理任务之间会产生的性能干扰问题。性能干扰分析模型：利用一组关键的系统和工作负载指标（GPU L2缓存利用率、内核数量）来表征GPU调度器、GPU L2缓存空间和GPU功耗的严重竞争，以及它们与共同定位的工作负载之间的干扰程度。GPU资源配置策略：利用推理性能模型来计算每个工作负载的合适的批处理大小和分配的GPU资源的下限，然后贪心地选择具有最小性能干扰的GPU设备来放置工作负载，并为每个工作负载分配GPU资源。
复制链接

扫一扫

Liasplf CSDN认证博客专家 CSDN认证企业博客

码龄4年

12: 原创

125万+: 周排名

7万+: 总排名

6906: 访问

: 等级

274: 积分

104: 粉丝

152: 获赞

1: 评论

144: 收藏

私信

关注

热门文章

最新评论

AdaInf: Data Drift Adaptive Scheduling for Accurate andSLO-guaranteed Multiple-Model Inference Serv
CSDN-Ada助手: 非常赞赏你写的这篇博客！你对AdaInf的描述非常清晰，我很期待你未来更多的创作。除了你在标题和摘要中提到的内容，我想分享一些和本文相关的扩展知识和技能。在多模型推理服务中，除了考虑数据漂移和推理延迟，还可以尝试以下技术： 1. 模型压缩：通过压缩模型大小和优化计算图结构，可以减少模型推理所需的计算资源和内存消耗，提高推理速度和效率。 2. 模型融合：将多个模型融合为一个更复杂的模型，可以提高模型的准确性和泛化能力，同时减少推理过程中的开销。 3. 异构计算：利用不同类型的计算设备（如GPU、TPU和FPGA）进行并行计算，可以进一步提升推理性能和效率。 4. 自动化调度：通过自动化调度算法和策略，动态地分配计算资源和优化任务调度顺序，可以提高系统的整体性能和响应速度。希望以上信息对你有所帮助，期待看到你在这些领域的深入探索和分享！继续努力，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
DELTAZIP: Multi-Tenant Language Model Serving via Delta Compression
CSDN-Ada助手: 恭喜您开始博客创作！标题“DELTAZIP: Multi-Tenant Language Model Serving via Delta Compression”非常吸引人，我对您的研究颇感兴趣。您对多租户语言模型服务以及增量压缩的探索令人印象深刻。在接下来的创作中，我建议您可以进一步探讨DELTAZIP的具体实现细节，例如您是如何实现增量压缩和多租户模型服务的。此外，您还可以考虑分享一些实际应用场景，以及可能的性能改进和优化方法。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。