DREAM: A Dynamic Scheduler for Dynamic Real-time Multi-model ML Workloads—

本文链接：https://blog.csdn.net/qq_36159989/article/details/137105443

本文提出了一种名为DREAM的调度器，针对实时多模型ML工作负载，有效处理异构模型、动态行为、数据依赖和资源受限设备的挑战。通过MapScore评估实时性和公平性，跟踪模型依赖，动态调度和抢先丢帧策略，DREAM在五种场景下显著降低整体UXCost。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ASPLOS 2024 Paper 论文阅读笔记整理

问题

新兴的实时多模型ML（RTMM）工作负载，如AR/VR和无人机控制，涉及各种粒度的动态行为：任务、模型和模型中的层。这种动态行为给ML系统中的系统软件带来了新的挑战，与传统的ML工作负载不同，总体系统负载不是完全可预测的。此外，RTMM工作负载需要实时处理，涉及高度异构的模型，并以资源受限的设备为目标。考虑到RTMM工作负载的独特特性，需要开发一个有效的调度器来更好地利用底层硬件。

挑战

面对一些新的挑战：（1）来自不同任务和多模态传感器输入的高度异构的ML模型（例如，模型大小、算子和张量大小）；（2）不同级别的丰富动态性；（3）复杂的模型级数据和控制依赖性；（4）目标设备（例如，AR眼镜）中的计算能力和能量受限；（5）实时要求。

现有方法不能满足RTMM的各种挑战

本文方法

本文提出了调度器DREAM，可以有效地处理RTMM系统中实时性、并发性、多模型、多任务的挑战。

对于实时性和并发性，提出了MapScore评分指标，该指标同时考虑了紧迫性和公平性，有助于优化特定任务性能的和所有任务的整体性能。
对于级联模型的复杂依赖，跟踪输入帧内和多个帧之间的模型依赖性。
对于动态性，开发了具有可调参数的动态调度方法，可以快速有效地适应工作负载的变化。
支持各种基于加速器的ML系统，包括具有异构大小和数据流的多加速器。
提出一种抢先丢帧方法，当预计会违反截止日期时，该方法会提前丢帧，有助于跨帧和模型进行全局优化。
RTMM背景下的超网切换探索[4]，该超网利用权重共享超网，在重系统负载下动态切换到较轻的模型变体来改进ML系统调度器，也促进了全局范围内的优化。

在五种RTMM工作负载场景的评估中，与最先进的基线相比，DREAM将总体UXCost（RTMM的能量延迟乘积（EDP）的等效度量）的几何平均值分别降低了32.2%和50.0%。

实验

实验环境：

数据集：

实验对比：UXCost（截止日期违规率和能耗率的乘积）、参数变化

实验参数：数据集、实验环境

总结

针对实时多模型ML（RTMM）工作负载设计调度器，需要同时考虑多种挑战：异构的ML模型；动态性；数据和控制依赖性；设备计算和能量受限；实时要求。本文提出调度器DREAM，可以有效地处理RTMM系统中实时性、并发性、多模型、多任务的挑战。（1）对于实时性和并发性，提出了MapScore评分指标，同时考虑了紧迫性和公平性。（2）对于级联模型的复杂依赖，跟踪输入帧内和多个帧之间的模型依赖性。（3）对于动态性，开发了具有可调参数的动态调度方法，快速有效地适应工作负载的变化。（4）支持各种基于加速器的ML系统，包括具有异构大小和数据流的多加速器。（5）提出抢先丢帧方法，当预计会违反截止日期时，该方法会提前丢帧，有助于跨帧和模型进行全局优化。（6）超网切换，利用权重共享超网，在重系统负载下动态切换到较轻的模型变体来改进ML系统调度器。