【论文阅读笔记】RL+启发式规则+可延迟储能系统(2):LLF-FD规则及其最优性

Jin, J., Hao, L., Xu, Y., Wu, J., and Jia, Q.-S., “Joint Scheduling of Deferrable Demand and Storage With Random Supply and Processing Rate Limits,” IEEE Transactions on Automatic Control, Vol. 66, No. 11, 5506-5513, November 2021.

系列文章:

LLF-LD 优先级规则

通过对任务松弛度的定义( θ i , t = τ i , t − r i , t \theta_{i,t} = \tau_{i,t} - r_{i,t} θi,t=τi,tri,t,即剩余服务期限与剩余需求的差值),建立了任务优先级的全序关系。证明了在一定条件下,遵循 LLF-LD 原则的调度策略具有最优性。具体而言,对于两个任务 i 和 j,若 i 的松弛度小于 j,则 i 优先于 j;若松弛度相同,截止时间较晚的任务优先。这一规则为任务的资源分配(能源分配)提供了明确的指导。

定义和动机

LLF-LD(Less Laxity First with Later Deadline)是一种动态优先级调度规则,用于在多任务、随机供应的场景下分配处理资源(如能源)。其核心思想是:

  1. 松弛度(Laxity)优先:优先处理松弛度更小的任务,以降低未完成惩罚风险。
  2. 截止时间辅助决策:若两任务松弛度相同,优先处理截止时间更晚的任务,以保留灵活性。

松弛度的定义: 对任务 i i i 在阶段 t t t,其松弛度为:
θ i , t = τ i , t − r i , t \theta_{i,t} = \tau_{i,t} - r_{i,t} θi,t=τi,tri,t
其中:

  • τ i , t = t i d − t \tau_{i,t} = t_i^d - t τi,t=tidt 为剩余处理时间(截止时间 t i d t_i^d tid 与当前时间 t t t 的差值)。
  • r i , t r_{i,t} ri,t 为剩余需求(需处理的能源量)。

物理意义

  • 松弛度越小,任务越紧迫(剩余时间仅略多于需求)。
  • 截止时间更晚的任务若被延迟,后续可能有更多调整空间,避免过早占用资源。

实现步骤

  1. 任务排序: 对当前所有任务 i ∈ I t i \in \mathcal{I}_t iIt,按以下规则排序:

    • 主排序:按松弛度 θ i , t \theta_{i,t} θi,t 升序(即 θ i , t \theta_{i,t} θi,t 小者优先)。
    • 次排序:若 θ i , t = θ j , t \theta_{i,t} = \theta_{j,t} θi,t=θj,t,按截止时间 t i d t_i^d tid 降序(即截止时间更晚者优先)。

    数学表达式: 定义任务 i i i 的优先级 i ≺ j i \prec j ij 当且仅当:
    θ i , t < θ j , t 或 θ i , t = θ j , t  且  t i d > t j d \theta_{i,t} < \theta_{j,t} \quad \text{或} \quad \theta_{i,t} = \theta_{j,t} \ \text{且} \ t_i^d > t_j^d θi,t<θj,tθi,t=θj,t  tid>tjd

  2. 能源分配: 在每阶段 t t t,总可用能源 A t A_t At 为:
    A t = min ⁡ { u t + g t ( s t ) − a 0 , t , ∑ i ∈ I t min ⁡ { 1 , r i , t } } A_t = \min \left\{ u_t + g_t(s_t) - a_{0,t}, \sum_{i \in \mathcal{I}_t} \min \{1, r_{i,t} \} \right\} At=min{ut+gt(st)a0,t,iItmin{1,ri,t}}

    • 第一项:电网采购 u t u_t ut + 可再生能源 g t ( s t ) g_t(s_t) gt(st) - 储能操作 a 0 , t a_{0,t} a0,t
    • 第二项:所有任务最大可处理量之和(因 C i = 1 C_i=1 Ci=1,每个任务每阶段最多处理1单位)。

    按优先级顺序依次分配能源至任务,直至 A t A_t At 耗尽。

  3. 任务状态更新: 若任务 i i i 分配到 a i , t = 1 a_{i,t}=1 ai,t=1,其剩余需求更新为:
    r i , t + 1 = r i , t − a i , t r_{i,t+1} = r_{i,t} - a_{i,t} ri,t+1=ri,tai,t
    r i , t + 1 = 0 r_{i,t+1}=0 ri,t+1=0,任务完成;否则,剩余处理时间更新为 τ i , t + 1 = τ i , t − 1 \tau_{i,t+1} = \tau_{i,t} - 1 τi,t+1=τi,t1

数学证明与最优性分析

定理(LLF-LD 的最优性): 在以下条件下,LLF-LD 规则能最小化期望总成本:

  1. 线性未完成惩罚 q ≥ p t ( s t ) q \geq p_t(s_t) qpt(st),确保优先处理任务而非支付惩罚。

  2. 排除边界情况:任务 i i i j j j 不满足以下条件:
    θ j , t ≤ θ i , t , r j , t ≤ r i , t , θ j , t > 0 , r i , t − r j , t ≥ 1 \theta_{j,t} \leq \theta_{i,t}, \quad r_{j,t} \leq r_{i,t}, \quad \theta_{j,t} > 0, \quad r_{i,t} - r_{j,t} \geq 1 θj,tθi,t,rj,tri,t,θj,t>0,ri,trj,t1
    (即任务 j j j 的松弛度更小、剩余需求更少,但剩余需求差超过1单位时,可能无法直接应用 LLF-LD)。

    • 当任务 i i i j j j 满足上述边界条件时,可能存在无法通过 LLF-LD 确定优先级的情况(如任务 j j j 需求少但紧迫)。此时需结合动态规划或启发式方法局部调整。

证明思路(基于动态规划与交换论证):

  1. 反证法:假设存在更优策略 π \pi π 未遵循 LLF-LD,则构造策略 π ˉ \bar{\pi} πˉ,在阶段 t t t 交换任务 i i i j j j 的处理顺序,证明 π ˉ \bar{\pi} πˉ 的成本不高于 π \pi π
  2. 松弛度与截止时间的单调性:处理松弛度更小的任务减少未来惩罚风险;截止时间更晚的任务处理延迟后,仍有更多机会补救。

最优性证明步骤

1. 问题形式化

设总成本为未完成任务惩罚之和:
J = ∑ t = 1 T q ⋅ ∑ i = 1 N r i , t ⋅ I { τ i , t = 0 } J = \sum_{t=1}^T q \cdot \sum_{i=1}^N r_{i,t} \cdot \mathbb{I}_{\{\tau_{i,t}=0\}} J=t=1Tqi=1Nri,tI{τi,t=0}
其中 I { τ i , t = 0 } \mathbb{I}_{\{\tau_{i,t}=0\}} I{τi,t=0}表示任务 i i i在截止时间后仍未完成。目标是选择处理顺序最小化 J J J

2. 交换论证(Exchange Argument)

核心思想:若存在一个最优策略在某一时刻未遵循LLF-LD规则,则可通过调整任务顺序构造更低成本策略,导出矛盾。

步骤

  1. 假设存在最优策略 π ∗ π^* π,在某一时刻 t t t未遵循LLF-LD:
    • 任务 i i i被处理,而存在任务 j j j满足 θ j , t < θ i , t \theta_{j,t} < \theta_{i,t} θj,t<θi,t(或 θ j , t = θ i , t \theta_{j,t} = \theta_{i,t} θj,t=θi,t τ j , t > τ i , t \tau_{j,t} > \tau_{i,t} τj,t>τi,t)。
  2. 构造调整策略 π ′ π' π:在 t t t时刻交换 i i i j j j的处理顺序。
  3. 分析成本变化
    • Case 1:两任务均能在截止时间前完成,交换顺序不影响总成本;
    • Case 2:交换后任务 j j j的松弛度更低,可能减少其超期风险;
    • Case 3:若任务 j j j因未被优先处理而超期,则 π ′ π' π π ∗ π^* π成本更低,与 π ∗ π^* π最优性矛盾。
3. 关键引理

引理1(松弛度单调性):若任务 j j j的松弛度 θ j , t ≤ θ i , t \theta_{j,t} \leq \theta_{i,t} θj,tθi,t,则优先处理 j j j不会增加总未完成惩罚。

证明

  • θ j , t < θ i , t \theta_{j,t} < \theta_{i,t} θj,t<θi,t,则 j j j的剩余时间窗口更紧张,延迟处理 j j j可能致其超期;
  • θ j , t = θ i , t \theta_{j,t} = \theta_{i,t} θj,t=θi,t τ j , t > τ i , t \tau_{j,t} > \tau_{i,t} τj,t>τi,t,则 j j j的截止时间更晚,优先处理 i i i不会比优先处理 j j j更优(因 i i i的截止时间更紧迫)。
4. 动态规划递归分析

贝尔曼方程
J t ( { r i , t , τ i , t } ) = min ⁡ a t ( q ⋅ ∑ i r i , t ⋅ I { τ i , t = 0 } + E [ J t + 1 ( { r i , t + 1 , τ i , t + 1 } ) ] ) J_t(\{r_{i,t}, \tau_{i,t}\}) = \min_{a_t} \left( q \cdot \sum_i r_{i,t} \cdot \mathbb{I}_{\{\tau_{i,t}=0\}} + \mathbb{E}[J_{t+1}(\{r_{i,t+1}, \tau_{i,t+1}\})] \right) Jt({ri,t,τi,t})=atmin(qiri,tI{τi,t=0}+E[Jt+1({ri,t+1,τi,t+1})])
归纳假设 J t + 1 J_{t+1} Jt+1在LLF-LD规则下为最优。

归纳步骤

  • 在时刻 t t t,按LLF-LD选择任务 j j j处理,其松弛度 θ j , t \theta_{j,t} θj,t最小;
  • 若存在另一任务 i i i未被优先处理,则其松弛度 θ i , t ≥ θ j , t \theta_{i,t} \geq \theta_{j,t} θi,tθj,t
  • 根据引理1,优先处理 j j j可最小化未来惩罚 E [ J t + 1 ] \mathbb{E}[J_{t+1}] E[Jt+1],即 J t J_t Jt在LLF-LD下最优。
5. 例外条件的作用

例外条件排除
∄ ( i , j ) : θ j ≤ θ i ,   τ j ≤ τ i ,   r i > r j \nexists (i,j): \theta_j \leq \theta_i, \ \tau_j \leq \tau_i, \ r_i > r_j (i,j):θjθi, τjτi, ri>rj

  • 物理意义:避免存在任务 j j j比任务 i i i更紧迫( θ j ≤ θ i \theta_j \leq \theta_i θjθi)、截止时间更早( τ j ≤ τ i \tau_j \leq \tau_i τjτi),但剩余需求更小( r j < r i r_j < r_i rj<ri)的情况;
  • 必要性:在此类情况下,优先处理 j j j可能因 r j r_j rj较小而快速释放资源,但LLF-LD可能优先处理 i i i,导致次优。

扩展到不同处理速率 C i C_i Ci 的任务

若任务 i i i 的最大处理速率为 C i > 1 C_i > 1 Ci>1,可通过 任务分解 将其等效为多个 C i = 1 C_i=1 Ci=1 的子任务:

  1. 分解方法: 设任务 i i i 剩余需求为 r i , t = d ⋅ C i + r r_{i,t} = d \cdot C_i + r ri,t=dCi+r d ∈ N + d \in \mathbb{N}_+ dN+, r ∈ { 0 , 1 , … , C i − 1 } r \in \{0,1,\dots,C_i-1\} r{0,1,,Ci1}),则:
    • r r r 个子任务需求为 d + 1 d+1 d+1
    • C i − r C_i - r Cir 个子任务需求为 d d d
  2. 应用 LLF-LD:对所有子任务按 LLF-LD 排序,分配能源后合并结果。

示例(图2):

  • 原任务: C i = 3 C_i=3 Ci=3 r i , t = 11 = 3 × 3 + 2 r_{i,t}=11 = 3 \times 3 + 2 ri,t=11=3×3+2
  • 分解为:2个子任务需求4,1个子任务需求3。
  • 分配时,每个子任务独立参与 LLF-LD 排序。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值