基于物理信息强化学习的非线性系统最优控制

青橘MATLAB学习

于 2025-03-22 16:51:39 发布

阅读量814

点赞数 36

分类专栏：强化学习文章标签：非线性系统最优控制物理信息神经网络强化学习

本文链接：https://blog.csdn.net/2501_90186640/article/details/146413296

版权

强化学习专栏收录该内容

4 篇文章

订阅专栏

摘要

本文提出了一种基于物理信息强化学习（PIRL）的无模型框架算法，用于解决具有输入约束的非线性系统最优控制问题。通过结合物理信息的神经网络逼近价值函数和控制策略，显著提升了闭环系统的稳定性与算法的收敛性。理论分析和化工过程实例的仿真结果表明，该算法在未知系统动力学下表现优异，为复杂非线性系统的智能控制提供了高效解决方案。
关键词：非线性系统；最优控制；物理信息神经网络；强化学习；输入约束

一、引言

最优控制在化工过程、自动驾驶、机器人等领域具有重要应用，其核心目标是设计控制策略以最小化能耗或提升生产效率。然而，非线性系统的最优控制问题比线性系统复杂得多，主要难点在于求解非线性哈密顿-雅可比-贝尔曼方程（HJB方程）的复杂性。传统方法依赖系统模型或大量数据，但在实际场景中，这类模型往往难以获取或数据有限。

传统强化学习（RL）方法通过神经网络逼近价值函数和策略，但仍需依赖系统模型推导最优策略。而积分强化学习（IRL）虽无需完整模型，但其策略改进阶段仍需控制增益函数，且难以直接处理非仿射系统。

本文提出一种物理信息强化学习（PIRL）算法，将领域知识（如闭环稳定性条件）融入强化学习框架，通过物理信息神经网络（PINN）构建价值函数和策略，并结合策略迭代优化算法，显著提升了算法效率和稳定性。

二、问题背景与挑战

1. 非线性系统与最优控制问题

考虑非线性系统动态方程：
$\dot{x} = F(x, u)$
其中， $\in \mathbb{R}^n$ 为状态向量， $\in \mathbb{R}^m$ 为受约束的输入向量（ $u_i \in [-\bar{u}_i, \bar{u}_i]$ ）。目标是最小化性能指标：
$\int_{t}^{\infty} \left( x^T(\tau) \mathcal{Q} x(\tau) + u^T(\tau) \mathscr{R} u(\tau) \right) d\tau$
其中， $\mathcal{Q}$ 和 $\mathscr{R}$ 为正定权重矩阵。

2. 传统方法的局限性

传统RL方法需依赖系统模型或试错法生成初始策略，计算成本高。此外，传统IRL方法在策略改进时需控制增益函数，难以直接处理非仿射系统。

三、物理信息强化学习算法

在这里插入图片描述

1. 价值函数逼近的PINN

评论家神经网络用于逼近价值函数 $V (x)$ 。基于积分强化学习（IRL）原理，定义哈密顿函数：
$\mathcal{H}(x, u, V) = \int_{t}^{t+T} \left( x^T \mathcal{Q} x + u^T \mathscr{R} u \right) d\tau + V(x(t+T)) - V(x(t))$
通过构建多层神经网络 $V_\theta(x)$ ，设计损失函数：

损失项1： $\mathscr{L}_{v1} = \frac{1}{N_v} \sum_{k=1}^{N_v} \mathcal{H}_v(x_k, \pi_w(x_k), V_\theta(x_k))^2$
损失项2： $\mathscr{L}_{v2} = \frac{1}{N_v} \sum_{k=1}^{N_v} \text{ReLU}\left( V_\theta(x_k(t_0 + t_s)) - V_\theta(x_k(t_0)) \right)$
总损失函数为加权和： $\mathscr{L}_v = \alpha_v \mathscr{L}_{v1} + \beta_v \mathscr{L}_{v2}$ ，确保价值函数满足控制李雅普诺夫函数（CLF）条件。

2. 控制策略逼近的PINN

演员神经网络用于生成满足输入约束的控制策略。输出层采用双曲正切（tanh）激活函数，并乘以输入上限 $\bar{u}_i$ ，确保输出自然满足约束：
$\pi_w(x) = \bar{u} \cdot \tanh\left( \text{NN}(x) \right)$
损失函数设计为：

损失项1： $\mathscr{L}_{u1} = \frac{1}{N_u} \sum_{k=1}^{N_u} \mathcal{H}_u(x_k, \pi_w^*(x_k), V_\theta(x_k))$
损失项2： $\mathscr{L}_{u2} = \frac{1}{N_u} \sum_{k=1}^{N_u} \text{ReLU}\left( \mathcal{H}_u(\pi_w^*) - \mathcal{H}_u(\pi_w) \right)$
总损失函数为 $\mathscr{L}_u = \alpha_u \mathscr{L}_{u1} + \beta_u \mathscr{L}_{u2}$ 。

3. 算法流程

PIRL算法分为三个阶段迭代优化：

初始策略学习：通过预定义CLF候选函数生成初始策略 $\pi_w^{(0)}$ 。
策略评估：固定策略，更新评论家网络 $V_\theta$ 。
策略改进：固定价值函数，优化演员网络 $\pi_w$ 。
重复迭代直至收敛。

四、理论保障

1. 闭环系统稳定性

定理1：若存在正定矩阵 $P$ 使得预定义CLF候选 $W(x) = x^T P x$ 满足 $\dot{W}(x, \pi_w(x)) < 0$ ，则闭环系统原点渐近稳定。
证明：李雅普诺夫函数 $V (x) = W (x)$ 的正定性和导数的负定性保证了稳定性。

2. 算法收敛性

定理2：若损失函数连续可微且存在最优解，则PIRL算法收敛到最优策略和最优价值函数。
证明：策略迭代的单调性及性能函数的有界性确保收敛。

五、案例研究：化工过程控制

4.1 化工过程描述

本研究以非等温连续搅拌釜式反应器（CSTR）为对象，其动态方程为：
$\begin{aligned} \frac{d C_{A}}{d t} &= \frac{F}{V_{L}}\left(C_{A 0}-C_{A}\right) - k_{0} e^{-\frac{E}{R T}} C_{A} \\ \frac{d T}{d t} &= \frac{F}{V_{L}}\left(T_{0}-T\right) - \frac{\Delta H k_{0}}{\rho_{L} C_{p}} e^{\frac{E}{R T}} C_{A} + \frac{Q}{\rho_{L} C_{p} V_{L}} \end{aligned}$
其中， $C_{A}$ 为反应物浓度， $T$ 为反应器温度， $Q$ 为热输入速率， $V_L$ 为反应体积， $F$ 为进料流量， $T_0$ 为进料温度， $C_{A0}$ 为进料浓度， $\rho_L$ 为液体密度， $C_p$ 为热容， $k_0$ 为指前因子， $E$ 为活化能， $\Delta H$ 为反应焓。控制目标是在满足输入约束条件下，将系统状态驱动至平衡点 $(C_{As}, T_s) = (0.57 \text{ kmol/m}^3, 395.3 \text{ K})$ ，并最小化性能函数：
$\int_{t}^{\infty} \left( x^T Q x + u^T \mathscr{R} u \right) d\tau$
其中， $\begin{bmatrix} 9.35 & 0.41 \\ 0.41 & 0.02 \end{bmatrix}$ ， $\mathscr{R} = \begin{bmatrix} 1/500 & 0 \\ 0 & 1/100 \end{bmatrix}$ ，控制输入 $[\Delta C_{A0}, \Delta Q]^T$ 满足 $|\Delta C_{A0}| \leq 2 \text{ kmol/m}^3$ ， $|\Delta Q| \leq 0.167 \text{ kJ/min}$ 。

4.2 仿真设置

基于Python和PyTorch框架实现PIRL算法，具体配置如下：

神经网络结构：
- 评论家网络 $V_{\theta}$ ：采用双隐藏层结构（258和126神经元），激活函数为Tanh，输出层通过平方操作保证非负性。
- 演员网络 $\pi_w$ ：同样双隐藏层（258和126神经元），输出层使用Tanh激活并乘以输入上限，确保 $\in U_c$ 。
训练参数：
- 初始数据集：在区域 $X_{\rho_c} = \{x \mid x^T Q x \leq 0.3\}$ 内采集4408个样本。
- 迭代次数： $k_{\text{max}} = 12$ 次，每次迭代包含策略评估和改进阶段。
- 学习率：Adam优化器， $\alpha_v = \beta_v = \alpha_u = \beta_u = 1$ ，时间间隔 $T = 1$ 。

4.3 仿真结果

经过12次迭代，PIRL算法在CSTR系统中表现如下：
在这里插入图片描述

状态响应：
- 选取初始状态 $\text{ kmol/m}^3, -5.6 \text{ K})$ 和 $\text{ kmol/m}^3, 5.6 \text{ K})$ ，系统状态在12次迭代后均收敛至平衡点。
- 与模型基RL对比，状态轨迹高度吻合（图7），验证了无模型方法的有效性。
控制输入：
- 控制输入 $\Delta C_{A0}$ 和 $\Delta Q$ 始终在约束范围内，且稳态后趋于零（图7）。
性能对比：

方法状态误差平方和控制能量消耗总性能指标
PIRL 0.08 0.03 0.11
传统RL 0.22 0.07 0.29
结果表明，PIRL通过引入Lyapunov稳定性约束，将不稳定样本数量降低60%（图5），显著提升了闭环系统的稳定性。