【论文阅读笔记】RL+启发式规则+可延迟储能系统（1）：储能问题建模-CSDN博客

本文链接：https://blog.csdn.net/iiiiii11/article/details/147410645

Jin, J., Hao, L., Xu, Y., Wu, J., and Jia, Q.-S., “Joint Scheduling of Deferrable Demand and Storage With Random Supply and Processing Rate Limits,” IEEE Transactions on Automatic Control, Vol. 66, No. 11, 5506-5513, November 2021.

系列文章：

研究背景

随着可再生能源的随机性和可延迟需求（如电动汽车充电）的普及，如何在动态环境中高效调度资源成为关键问题。传统方法在处理随机供应（如风光发电）、任务到达不确定性以及处理速率限制时面临挑战。此外，储能系统的引入进一步增加了调度复杂性，需在任务处理、储能充放电和外部能源采购之间进行联合优化，以最小化总成本（包括处理成本和未完成任务的高额惩罚）。本文结合动态规划和强化学习，提出了一种新型联合调度框架。

研究问题

在以下约束下，如何联合调度可延迟任务与储能系统，以最小化长期期望成本？

随机性：任务到达时间、处理成本、可再生能源供应均随时间随机变化。
处理速率限制：每个时段的总处理速率（任务处理+储能充放电）受限于电网容量和可再生能源输出。
任务特性：每个任务有固定的截止时间（deadline）和需求，未完成需支付线性惩罚。
储能约束：储能的充放电速率、容量限制及效率（假设为100%）。

主要贡献

LLF-LD 优先级规则（Less Laxity First with Later Deadline）：
- 优先处理松弛度更小的任务；若松弛度相同，则优先处理截止时间更晚的任务。
  - 松弛度（Laxity）：任务剩余处理时间与剩余期限的差值，即 $\theta_{i,t} = \tau_{i,t} - r_{i,t}$ （ $\tau_{i,t}$ 为剩余期限， $r_{i,t}$ 为剩余需求）。
  - 这一规则适用于一般性的随机任务到达和处理成本动态变化场景，无需对未来系统动态（如任务到达和处理成本）的完全知识。
- 通过动态规划证明了该规则在绝大多数场景下的最优性（除特定边界情况外）。
储能操作的最优性分析：
- 证明了成本函数在储能操作上是凸可扩展（Convex-Extensible） 的，即满足 $2J^{(u_t,a_{0,t})}_t \leq J^{(u_t,a_{0,t}-1)}_t + J^{(u_t,a_{0,t}+1)}_t$ 。
- 该性质允许使用二分搜索快速求解最优储能操作，复杂度从线性降至对数级。
强化学习与最优规则结合：
- 将 LLF-LD 规则与 Actor-Critic 方法结合，将强化学习的输出维度从 $N + 1$ 降至 1（仅需决策能源采购量）。
- 实验表明，该方法相比传统 RL+EDF（最早截止时间优先）策略，成本降低 26%–32%。

创新点

传统 RL 方法因高维动作空间（任务分配+储能操作+采购）难以扩展，而 LLF-LD 规则通过理论分析大幅简化决策维度。
动态规划提供理论最优性保证，强化学习则适应未知的随机环境动态，二者结合兼顾效率与鲁棒性。
凸扩展性的证明使得离散优化问题可高效求解，突破了传统动态规划的算力限制。

问题建模

将调度问题建模为一个多阶段动态规划（DP）问题。系统状态包括储能水平和各个服务器（任务）的状态，服务器状态由剩余需求和剩余服务期限构成。动态规划的目标是最小化系统的总预期成本，包括处理成本和未完成任务的惩罚成本。通过定义状态转移、阶段成本等要素，构建了 Bellman 方程来描述最优成本函数，但由于系统状态空间随服务器数量呈指数增长，直接求解 Bellman 方程具有挑战性。

MDP

时间与状态
- 时间范围：离散阶段集合 $\mathcal{T} = \{0, 1, \dots, T-1\}$ 。
- 全局状态 $s_t$ ：包含外生随机因素（如电价、可再生能源输出、任务到达），遵循时齐马尔可夫链，动态未知且独立于操作者动作。
任务特性
- 任务 $i$ ：到达时携带需求 $r_{i,t}$ 和截止时间 $t_i^d$ ，需在时段 $\{t, t+1, \dots, t_i^d -1\}$ 内完成处理。
- 服务器状态 $x_{i,t} = (r_{i,t}, \tau_{i,t})$ ：
  - $r_{i,t}$ ：剩余需求（需处理的能源量）。
  - $\tau_{i,t} = t_i^d - t$ ：剩余处理时间（截止前剩余阶段数）。
- 松弛度 $\theta_{i,t} = \tau_{i,t} - r_{i,t}$ ：表示任务可容忍的延迟阶段数，值越小紧迫性越高。
能源供应与处理约束
- 可再生能源输出 $g_t(s_t)$ ：随机生成，如风光发电。
- 电网采购上限 $M_t(s_t)$ ：每阶段从电网采购的能源量不超过此值，防止过载。
- 总处理速率上限：每阶段总处理量（任务 + 储能充放电）不得超过 $M_t(s_t) + g_t(s_t)$ 。
储能系统
- 容量 $B$ ：储能最大存储量。
- 充放电速率限制 $R^C, R^D$ ：每阶段最大充/放电量。
- 动态方程：
  $x_{0,t+1} = x_{0,t} + a_{0,t}, \quad a_{0,t} \in \{-R^D, \dots, R^C\}$
  且满足 $\leq x_{0,t} + a_{0,t} \leq B$ 。
动作空间
- 储能操作 $a_{0,t}$ ：充放电量，需满足速率和容量约束。
- 任务处理量 $a_{i,t} \in \{0, 1\}$ ：每个任务每阶段最多处理1单位能源（因假设 $C_i = 1$ ）。
- 能源采购量 $u_t$ ：从电网采购的能源量，需满足：
  $u_t = \left( a_{0,t}^+ + A_t - g_t(s_t) \right)^+ \leq M_t(s_t)$
  其中 $A_t = \sum_{i=1}^N a_{i,t}$ 为总任务处理量。

动态规划建模

状态变量
系统状态 $x_t = (x_{0,t}, x_{1,t}, \dots, x_{N,t})$ ，包含储能水平 $x_{0,t}$ 和各任务状态 $x_{i,t}$ 。全局状态 $s_t$ 影响价格、可再生能源和任务到达。
成本函数
- 阶段成本 $w_t$ ：
  $w_t(x_t, s_t, a_t) = p_t(s_t) u_t + q \cdot y_t$
  - $u_t$ ：电网采购成本，单价为 $p_t(s_t)$ 。
  - $y_t = \sum_{i \in J_t} (r_{i,t} - a_{i,t})$ ：未完成需求惩罚， $J_t$ 为截止时间为 $t + 1$ 的任务集合。
  - 约束 $\geq p_t(s_t)$ ：确保优先处理任务而非支付惩罚。
贝尔曼方程 最优成本函数 $J_t(x_t, s_t)$ 满足：
$J_t(x_t, s_t) = \min_{a_t \in \mathcal{A}(x_t, s_t)} \left\{ w_t(x_t, s_t, a_t) + \mathbb{E}[J_{t+1}(x_{t+1}, s_{t+1}) \mid s_t] \right\}$
- $\mathcal{A}(x_t, s_t)$ ：满足所有约束的可行动作集合。
- 期望项体现对未来随机状态（如任务到达、价格变化）的预测。