文章指出在使用多进程服务(MPS)技术来实现GPU资源的空间共享时,不同的DNN推理任务之间会产生的性能干扰问题。性能干扰会导致推理任务的延迟增加,从而影响用户体验和服务质量。导致性能干扰的三个主要因素是:1、GPU调度器对内核的调度延迟增加2、GPU L2缓存空间的严重争用3、由于功率限制而导致的GPU频率降低(功率消耗上升导致频率下降)
本文提出的iGniter,一个基于轻量级的性能干扰模型和主动的干扰缓解策略的GPU资源分配框架,旨在实现可预测的DNN推理性能,同时降低云端的推理成本
性能干扰分析模型:利用一组关键的系统和工作负载指标(GPU L2缓存利用率、内核数量)来表征GPU调度器、GPU L2缓存空间和GPU功耗的严重竞争,以及它们与共同定位的工作负载之间的干扰程度
GPU资源配置策略:利用推理性能模型来计算每个工作负载的合适的批处理大小和分配的GPU资源的下限,然后贪心地选择具有最小性能干扰的GPU设备来放置工作负载,并为每个工作负载分配GPU资源
基于NVIDIA Triton推理服务器实现的iGniter系统,包含三大模块:推理负载放置器、GPU资源分配器、推理性能预测器