Jin, J., Hao, L., Xu, Y., Wu, J., and Jia, Q.-S., “Joint Scheduling of Deferrable Demand and Storage With Random Supply and Processing Rate Limits,” IEEE Transactions on Automatic Control, Vol. 66, No. 11, 5506-5513, November 2021.
系列文章:
- 【论文阅读笔记】RL+启发式规则+可延迟储能系统(1):储能问题建模(当前)
- 【论文阅读笔记】RL+启发式规则+可延迟储能系统(2):LLF-FD规则及其最优性
- 【论文阅读笔记】RL+启发式规则+可延迟储能系统(3):凸可扩展性+结合最优控制策略的Actor-Critic方法
研究背景
随着可再生能源的随机性和可延迟需求(如电动汽车充电)的普及,如何在动态环境中高效调度资源成为关键问题。传统方法在处理随机供应(如风光发电)、任务到达不确定性以及处理速率限制时面临挑战。此外,储能系统的引入进一步增加了调度复杂性,需在任务处理、储能充放电和外部能源采购之间进行联合优化,以最小化总成本(包括处理成本和未完成任务的高额惩罚)。本文结合动态规划和强化学习,提出了一种新型联合调度框架。
研究问题
在以下约束下,如何联合调度可延迟任务与储能系统,以最小化长期期望成本?
- 随机性:任务到达时间、处理成本、可再生能源供应均随时间随机变化。
- 处理速率限制:每个时段的总处理速率(任务处理+储能充放电)受限于电网容量和可再生能源输出。
- 任务特性:每个任务有固定的截止时间(deadline)和需求,未完成需支付线性惩罚。
- 储能约束:储能的充放电速率、容量限制及效率(假设为100%)。
主要贡献
- LLF-LD 优先级规则(Less Laxity First with Later Deadline):
- 优先处理松弛度更小的任务;若松弛度相同,则优先处理截止时间更晚的任务。
- 松弛度(Laxity):任务剩余处理时间与剩余期限的差值,即 θ i , t = τ i , t − r i , t \theta_{i,t} = \tau_{i,t} - r_{i,t} θi,t=τi,t−ri,t( τ i , t \tau_{i,t} τi,t 为剩余期限, r i , t r_{i,t} ri,t 为剩余需求)。
- 这一规则适用于一般性的随机任务到达和处理成本动态变化场景,无需对未来系统动态(如任务到达和处理成本)的完全知识。
- 通过动态规划证明了该规则在绝大多数场景下的最优性(除特定边界情况外)。
- 优先处理松弛度更小的任务;若松弛度相同,则优先处理截止时间更晚的任务。
- 储能操作的最优性分析:
- 证明了成本函数在储能操作上是凸可扩展(Convex-Extensible) 的,即满足 2 J t ( u t , a 0 , t ) ≤ J t ( u t , a 0 , t − 1 ) + J t ( u t , a 0 , t + 1 ) 2J^{(u_t,a_{0,t})}_t \leq J^{(u_t,a_{0,t}-1)}_t + J^{(u_t,a_{0,t}+1)}_t 2Jt(ut,a0,t)≤Jt(ut,a0,t−1)+Jt(ut,a0,t+1)。
- 该性质允许使用二分搜索快速求解最优储能操作,复杂度从线性降至对数级。
- 强化学习与最优规则结合:
- 将 LLF-LD 规则与 Actor-Critic 方法结合,将强化学习的输出维度从 N + 1 N+1 N+1 降至 1(仅需决策能源采购量)。
- 实验表明,该方法相比传统 RL+EDF(最早截止时间优先)策略,成本降低 26%–32%。
创新点
- 传统 RL 方法因高维动作空间(任务分配+储能操作+采购)难以扩展,而 LLF-LD 规则通过理论分析大幅简化决策维度。
- 动态规划提供理论最优性保证,强化学习则适应未知的随机环境动态,二者结合兼顾效率与鲁棒性。
- 凸扩展性的证明使得离散优化问题可高效求解,突破了传统动态规划的算力限制。
问题建模
将调度问题建模为一个多阶段动态规划(DP)问题。系统状态包括储能水平和各个服务器(任务)的状态,服务器状态由剩余需求和剩余服务期限构成。动态规划的目标是最小化系统的总预期成本,包括处理成本和未完成任务的惩罚成本。通过定义状态转移、阶段成本等要素,构建了 Bellman 方程来描述最优成本函数,但由于系统状态空间随服务器数量呈指数增长,直接求解 Bellman 方程具有挑战性。
MDP
-
时间与状态
- 时间范围:离散阶段集合 T = { 0 , 1 , … , T − 1 } \mathcal{T} = \{0, 1, \dots, T-1\} T={0,1,…,T−1}。
- 全局状态 s t s_t st:包含外生随机因素(如电价、可再生能源输出、任务到达),遵循时齐马尔可夫链,动态未知且独立于操作者动作。
-
任务特性
- 任务 i i i:到达时携带需求 r i , t r_{i,t} ri,t 和截止时间 t i d t_i^d tid,需在时段 { t , t + 1 , … , t i d − 1 } \{t, t+1, \dots, t_i^d -1\} {t,t+1,…,tid−1} 内完成处理。
- 服务器状态
x
i
,
t
=
(
r
i
,
t
,
τ
i
,
t
)
x_{i,t} = (r_{i,t}, \tau_{i,t})
xi,t=(ri,t,τi,t):
- r i , t r_{i,t} ri,t:剩余需求(需处理的能源量)。
- τ i , t = t i d − t \tau_{i,t} = t_i^d - t τi,t=tid−t:剩余处理时间(截止前剩余阶段数)。
- 松弛度 θ i , t = τ i , t − r i , t \theta_{i,t} = \tau_{i,t} - r_{i,t} θi,t=τi,t−ri,t:表示任务可容忍的延迟阶段数,值越小紧迫性越高。
-
能源供应与处理约束
- 可再生能源输出 g t ( s t ) g_t(s_t) gt(st):随机生成,如风光发电。
- 电网采购上限 M t ( s t ) M_t(s_t) Mt(st):每阶段从电网采购的能源量不超过此值,防止过载。
- 总处理速率上限:每阶段总处理量(任务 + 储能充放电)不得超过 M t ( s t ) + g t ( s t ) M_t(s_t) + g_t(s_t) Mt(st)+gt(st)。
-
储能系统
-
容量 B B B:储能最大存储量。
-
充放电速率限制 R C , R D R^C, R^D RC,RD:每阶段最大充/放电量。
-
动态方程:
x 0 , t + 1 = x 0 , t + a 0 , t , a 0 , t ∈ { − R D , … , R C } x_{0,t+1} = x_{0,t} + a_{0,t}, \quad a_{0,t} \in \{-R^D, \dots, R^C\} x0,t+1=x0,t+a0,t,a0,t∈{−RD,…,RC}
且满足 0 ≤ x 0 , t + a 0 , t ≤ B 0 \leq x_{0,t} + a_{0,t} \leq B 0≤x0,t+a0,t≤B。
-
-
动作空间
- 储能操作 a 0 , t a_{0,t} a0,t:充放电量,需满足速率和容量约束。
- 任务处理量 a i , t ∈ { 0 , 1 } a_{i,t} \in \{0, 1\} ai,t∈{0,1}:每个任务每阶段最多处理1单位能源(因假设 C i = 1 C_i = 1 Ci=1)。
- 能源采购量
u
t
u_t
ut:从电网采购的能源量,需满足:
u t = ( a 0 , t + + A t − g t ( s t ) ) + ≤ M t ( s t ) u_t = \left( a_{0,t}^+ + A_t - g_t(s_t) \right)^+ \leq M_t(s_t) ut=(a0,t++At−gt(st))+≤Mt(st)
其中 A t = ∑ i = 1 N a i , t A_t = \sum_{i=1}^N a_{i,t} At=∑i=1Nai,t 为总任务处理量。
动态规划建模
-
状态变量
系统状态 x t = ( x 0 , t , x 1 , t , … , x N , t ) x_t = (x_{0,t}, x_{1,t}, \dots, x_{N,t}) xt=(x0,t,x1,t,…,xN,t),包含储能水平 x 0 , t x_{0,t} x0,t 和各任务状态 x i , t x_{i,t} xi,t。全局状态 s t s_t st 影响价格、可再生能源和任务到达。 -
成本函数
- 阶段成本
w
t
w_t
wt:
w t ( x t , s t , a t ) = p t ( s t ) u t + q ⋅ y t w_t(x_t, s_t, a_t) = p_t(s_t) u_t + q \cdot y_t wt(xt,st,at)=pt(st)ut+q⋅yt- u t u_t ut:电网采购成本,单价为 p t ( s t ) p_t(s_t) pt(st)。
- y t = ∑ i ∈ J t ( r i , t − a i , t ) y_t = \sum_{i \in J_t} (r_{i,t} - a_{i,t}) yt=∑i∈Jt(ri,t−ai,t):未完成需求惩罚, J t J_t Jt 为截止时间为 t + 1 t+1 t+1 的任务集合。
- 约束 q ≥ p t ( s t ) q \geq p_t(s_t) q≥pt(st):确保优先处理任务而非支付惩罚。
- 阶段成本
w
t
w_t
wt:
-
贝尔曼方程 最优成本函数 J t ( x t , s t ) J_t(x_t, s_t) Jt(xt,st) 满足:
J t ( x t , s t ) = min a t ∈ A ( x t , s t ) { w t ( x t , s t , a t ) + E [ J t + 1 ( x t + 1 , s t + 1 ) ∣ s t ] } J_t(x_t, s_t) = \min_{a_t \in \mathcal{A}(x_t, s_t)} \left\{ w_t(x_t, s_t, a_t) + \mathbb{E}[J_{t+1}(x_{t+1}, s_{t+1}) \mid s_t] \right\} Jt(xt,st)=at∈A(xt,st)min{wt(xt,st,at)+E[Jt+1(xt+1,st+1)∣st]}- A ( x t , s t ) \mathcal{A}(x_t, s_t) A(xt,st):满足所有约束的可行动作集合。
- 期望项体现对未来随机状态(如任务到达、价格变化)的预测。