iGniter: Interference-Aware GPU ResourceProvisioning for Predictable DNN Inference inthe Cloud

文章指出在使用多进程服务(MPS)技术来实现GPU资源的空间共享时,不同的DNN推理任务之间会产生的性能干扰问题。性能干扰会导致推理任务的延迟增加,从而影响用户体验和服务质量。导致性能干扰的三个主要因素是:1、GPU调度器对内核的调度延迟增加2、GPU L2缓存空间的严重争用3、由于功率限制而导致的GPU频率降低(功率消耗上升导致频率下降)

本文提出的iGniter,一个基于轻量级的性能干扰模型和主动的干扰缓解策略的GPU资源分配框架,旨在实现可预测的DNN推理性能,同时降低云端的推理成本

性能干扰分析模型:利用一组关键的系统和工作负载指标(GPU L2缓存利用率、内核数量)来表征GPU调度器、GPU L2缓存空间和GPU功耗的严重竞争,以及它们与共同定位的工作负载之间的干扰程度

GPU资源配置策略:利用推理性能模型来计算每个工作负载的合适的批处理大小和分配的GPU资源的下限,然后贪心地选择具有最小性能干扰的GPU设备来放置工作负载,并为每个工作负载分配GPU资源

基于NVIDIA Triton推理服务器实现的iGniter系统,包含三大模块:推理负载放置器、GPU资源分配器、推理性能预测器

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值