【论文阅读笔记】RL+启发式规则+可延迟储能系统(1):储能问题建模

Jin, J., Hao, L., Xu, Y., Wu, J., and Jia, Q.-S., “Joint Scheduling of Deferrable Demand and Storage With Random Supply and Processing Rate Limits,” IEEE Transactions on Automatic Control, Vol. 66, No. 11, 5506-5513, November 2021.

系列文章:

研究背景

随着可再生能源的随机性和可延迟需求(如电动汽车充电)的普及,如何在动态环境中高效调度资源成为关键问题。传统方法在处理随机供应(如风光发电)、任务到达不确定性以及处理速率限制时面临挑战。此外,储能系统的引入进一步增加了调度复杂性,需在任务处理、储能充放电和外部能源采购之间进行联合优化,以最小化总成本(包括处理成本和未完成任务的高额惩罚)。本文结合动态规划和强化学习,提出了一种新型联合调度框架。

研究问题

在以下约束下,如何联合调度可延迟任务与储能系统,以最小化长期期望成本?

  1. 随机性:任务到达时间、处理成本、可再生能源供应均随时间随机变化。
  2. 处理速率限制:每个时段的总处理速率(任务处理+储能充放电)受限于电网容量和可再生能源输出。
  3. 任务特性:每个任务有固定的截止时间(deadline)和需求,未完成需支付线性惩罚。
  4. 储能约束:储能的充放电速率、容量限制及效率(假设为100%)。

主要贡献

  1. LLF-LD 优先级规则Less Laxity First with Later Deadline):
    • 优先处理松弛度更小的任务;若松弛度相同,则优先处理截止时间更晚的任务。
      • 松弛度(Laxity):任务剩余处理时间与剩余期限的差值,即 θ i , t = τ i , t − r i , t \theta_{i,t} = \tau_{i,t} - r_{i,t} θi,t=τi,tri,t τ i , t \tau_{i,t} τi,t 为剩余期限, r i , t r_{i,t} ri,t 为剩余需求)。
      • 这一规则适用于一般性的随机任务到达和处理成本动态变化场景,无需对未来系统动态(如任务到达和处理成本)的完全知识。
    • 通过动态规划证明了该规则在绝大多数场景下的最优性(除特定边界情况外)。
  2. 储能操作的最优性分析
    • 证明了成本函数在储能操作上是凸可扩展(Convex-Extensible) 的,即满足 2 J t ( u t , a 0 , t ) ≤ J t ( u t , a 0 , t − 1 ) + J t ( u t , a 0 , t + 1 ) 2J^{(u_t,a_{0,t})}_t \leq J^{(u_t,a_{0,t}-1)}_t + J^{(u_t,a_{0,t}+1)}_t 2Jt(ut,a0,t)Jt(ut,a0,t1)+Jt(ut,a0,t+1)
    • 该性质允许使用二分搜索快速求解最优储能操作,复杂度从线性降至对数级。
  3. 强化学习与最优规则结合
    • 将 LLF-LD 规则与 Actor-Critic 方法结合,将强化学习的输出维度从 N + 1 N+1 N+1 降至 1(仅需决策能源采购量)。
    • 实验表明,该方法相比传统 RL+EDF(最早截止时间优先)策略,成本降低 26%–32%。

创新点

  • 传统 RL 方法因高维动作空间(任务分配+储能操作+采购)难以扩展,而 LLF-LD 规则通过理论分析大幅简化决策维度。
  • 动态规划提供理论最优性保证,强化学习则适应未知的随机环境动态,二者结合兼顾效率与鲁棒性。
  • 凸扩展性的证明使得离散优化问题可高效求解,突破了传统动态规划的算力限制。

问题建模

将调度问题建模为一个多阶段动态规划(DP)问题。系统状态包括储能水平和各个服务器(任务)的状态,服务器状态由剩余需求和剩余服务期限构成。动态规划的目标是最小化系统的总预期成本,包括处理成本和未完成任务的惩罚成本。通过定义状态转移、阶段成本等要素,构建了 Bellman 方程来描述最优成本函数,但由于系统状态空间随服务器数量呈指数增长,直接求解 Bellman 方程具有挑战性。

MDP

  1. 时间与状态

    • 时间范围:离散阶段集合 T = { 0 , 1 , … , T − 1 } \mathcal{T} = \{0, 1, \dots, T-1\} T={0,1,,T1}
    • 全局状态 s t s_t st:包含外生随机因素(如电价、可再生能源输出、任务到达),遵循时齐马尔可夫链,动态未知且独立于操作者动作。
  2. 任务特性

    • 任务 i i i:到达时携带需求 r i , t r_{i,t} ri,t 和截止时间 t i d t_i^d tid,需在时段 { t , t + 1 , … , t i d − 1 } \{t, t+1, \dots, t_i^d -1\} {t,t+1,,tid1} 内完成处理。
    • 服务器状态 x i , t = ( r i , t , τ i , t ) x_{i,t} = (r_{i,t}, \tau_{i,t}) xi,t=(ri,t,τi,t)
      • r i , t r_{i,t} ri,t:剩余需求(需处理的能源量)。
      • τ i , t = t i d − t \tau_{i,t} = t_i^d - t τi,t=tidt:剩余处理时间(截止前剩余阶段数)。
    • 松弛度 θ i , t = τ i , t − r i , t \theta_{i,t} = \tau_{i,t} - r_{i,t} θi,t=τi,tri,t:表示任务可容忍的延迟阶段数,值越小紧迫性越高。
  3. 能源供应与处理约束

    • 可再生能源输出 g t ( s t ) g_t(s_t) gt(st):随机生成,如风光发电。
    • 电网采购上限 M t ( s t ) M_t(s_t) Mt(st):每阶段从电网采购的能源量不超过此值,防止过载。
    • 总处理速率上限:每阶段总处理量(任务 + 储能充放电)不得超过 M t ( s t ) + g t ( s t ) M_t(s_t) + g_t(s_t) Mt(st)+gt(st)
  4. 储能系统

    • 容量 B B B:储能最大存储量。

    • 充放电速率限制 R C , R D R^C, R^D RC,RD:每阶段最大充/放电量。

    • 动态方程
      x 0 , t + 1 = x 0 , t + a 0 , t , a 0 , t ∈ { − R D , … , R C } x_{0,t+1} = x_{0,t} + a_{0,t}, \quad a_{0,t} \in \{-R^D, \dots, R^C\} x0,t+1=x0,t+a0,t,a0,t{RD,,RC}
      且满足 0 ≤ x 0 , t + a 0 , t ≤ B 0 \leq x_{0,t} + a_{0,t} \leq B 0x0,t+a0,tB

  5. 动作空间

    • 储能操作 a 0 , t a_{0,t} a0,t:充放电量,需满足速率和容量约束。
    • 任务处理量 a i , t ∈ { 0 , 1 } a_{i,t} \in \{0, 1\} ai,t{0,1}:每个任务每阶段最多处理1单位能源(因假设 C i = 1 C_i = 1 Ci=1)。
    • 能源采购量 u t u_t ut:从电网采购的能源量,需满足:
      u t = ( a 0 , t + + A t − g t ( s t ) ) + ≤ M t ( s t ) u_t = \left( a_{0,t}^+ + A_t - g_t(s_t) \right)^+ \leq M_t(s_t) ut=(a0,t++Atgt(st))+Mt(st)
      其中 A t = ∑ i = 1 N a i , t A_t = \sum_{i=1}^N a_{i,t} At=i=1Nai,t 为总任务处理量。

动态规划建模

  1. 状态变量
    系统状态 x t = ( x 0 , t , x 1 , t , … , x N , t ) x_t = (x_{0,t}, x_{1,t}, \dots, x_{N,t}) xt=(x0,t,x1,t,,xN,t),包含储能水平 x 0 , t x_{0,t} x0,t 和各任务状态 x i , t x_{i,t} xi,t。全局状态 s t s_t st 影响价格、可再生能源和任务到达。

  2. 成本函数

    • 阶段成本 w t w_t wt
      w t ( x t , s t , a t ) = p t ( s t ) u t + q ⋅ y t w_t(x_t, s_t, a_t) = p_t(s_t) u_t + q \cdot y_t wt(xt,st,at)=pt(st)ut+qyt
      • u t u_t ut:电网采购成本,单价为 p t ( s t ) p_t(s_t) pt(st)
      • y t = ∑ i ∈ J t ( r i , t − a i , t ) y_t = \sum_{i \in J_t} (r_{i,t} - a_{i,t}) yt=iJt(ri,tai,t):未完成需求惩罚, J t J_t Jt 为截止时间为 t + 1 t+1 t+1 的任务集合。
      • 约束 q ≥ p t ( s t ) q \geq p_t(s_t) qpt(st):确保优先处理任务而非支付惩罚。
  3. 贝尔曼方程 最优成本函数 J t ( x t , s t ) J_t(x_t, s_t) Jt(xt,st) 满足:
    J t ( x t , s t ) = min ⁡ a t ∈ A ( x t , s t ) { w t ( x t , s t , a t ) + E [ J t + 1 ( x t + 1 , s t + 1 ) ∣ s t ] } J_t(x_t, s_t) = \min_{a_t \in \mathcal{A}(x_t, s_t)} \left\{ w_t(x_t, s_t, a_t) + \mathbb{E}[J_{t+1}(x_{t+1}, s_{t+1}) \mid s_t] \right\} Jt(xt,st)=atA(xt,st)min{wt(xt,st,at)+E[Jt+1(xt+1,st+1)st]}

    • A ( x t , s t ) \mathcal{A}(x_t, s_t) A(xt,st):满足所有约束的可行动作集合。
    • 期望项体现对未来随机状态(如任务到达、价格变化)的预测。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值