摘要
本文提出了一种基于物理信息强化学习(PIRL)的无模型框架算法,用于解决具有输入约束的非线性系统最优控制问题。通过结合物理信息的神经网络逼近价值函数和控制策略,显著提升了闭环系统的稳定性与算法的收敛性。理论分析和化工过程实例的仿真结果表明,该算法在未知系统动力学下表现优异,为复杂非线性系统的智能控制提供了高效解决方案。
关键词:非线性系统;最优控制;物理信息神经网络;强化学习;输入约束
一、引言
最优控制在化工过程、自动驾驶、机器人等领域具有重要应用,其核心目标是设计控制策略以最小化能耗或提升生产效率。然而,非线性系统的最优控制问题比线性系统复杂得多,主要难点在于求解非线性哈密顿-雅可比-贝尔曼方程(HJB方程)的复杂性。传统方法依赖系统模型或大量数据,但在实际场景中,这类模型往往难以获取或数据有限。
传统强化学习(RL)方法通过神经网络逼近价值函数和策略,但仍需依赖系统模型推导最优策略。而积分强化学习(IRL)虽无需完整模型,但其策略改进阶段仍需控制增益函数,且难以直接处理非仿射系统。
本文提出一种物理信息强化学习(PIRL)算法,将领域知识(如闭环稳定性条件)融入强化学习框架,通过物理信息神经网络(PINN)构建价值函数和策略,并结合策略迭代优化算法,显著提升了算法效率和稳定性。
二、问题背景与挑战
1. 非线性系统与最优控制问题
考虑非线性系统动态方程:
x
˙
=
F
(
x
,
u
)
\dot{x} = F(x, u)
x˙=F(x,u)
其中,
x
∈
R
n
x \in \mathbb{R}^n
x∈Rn 为状态向量,
u
∈
R
m
u \in \mathbb{R}^m
u∈Rm 为受约束的输入向量(
u
i
∈
[
−
u
ˉ
i
,
u
ˉ
i
]
u_i \in [-\bar{u}_i, \bar{u}_i]
ui∈[−uˉi,uˉi])。目标是最小化性能指标:
J
(
x
(
t
)
)
=
∫
t
∞
(
x
T
(
τ
)
Q
x
(
τ
)
+
u
T
(
τ
)
R
u
(
τ
)
)
d
τ
J(x(t)) = \int_{t}^{\infty} \left( x^T(\tau) \mathcal{Q} x(\tau) + u^T(\tau) \mathscr{R} u(\tau) \right) d\tau
J(x(t))=∫t∞(xT(τ)Qx(τ)+uT(τ)Ru(τ))dτ
其中,
Q
\mathcal{Q}
Q 和
R
\mathscr{R}
R 为正定权重矩阵。
2. 传统方法的局限性
传统RL方法需依赖系统模型或试错法生成初始策略,计算成本高。此外,传统IRL方法在策略改进时需控制增益函数,难以直接处理非仿射系统。
三、物理信息强化学习算法
1. 价值函数逼近的PINN
评论家神经网络用于逼近价值函数
V
(
x
)
V(x)
V(x)。基于积分强化学习(IRL)原理,定义哈密顿函数:
H
(
x
,
u
,
V
)
=
∫
t
t
+
T
(
x
T
Q
x
+
u
T
R
u
)
d
τ
+
V
(
x
(
t
+
T
)
)
−
V
(
x
(
t
)
)
\mathcal{H}(x, u, V) = \int_{t}^{t+T} \left( x^T \mathcal{Q} x + u^T \mathscr{R} u \right) d\tau + V(x(t+T)) - V(x(t))
H(x,u,V)=∫tt+T(xTQx+uTRu)dτ+V(x(t+T))−V(x(t))
通过构建多层神经网络
V
θ
(
x
)
V_\theta(x)
Vθ(x),设计损失函数:
- 损失项1: L v 1 = 1 N v ∑ k = 1 N v H v ( x k , π w ( x k ) , V θ ( x k ) ) 2 \mathscr{L}_{v1} = \frac{1}{N_v} \sum_{k=1}^{N_v} \mathcal{H}_v(x_k, \pi_w(x_k), V_\theta(x_k))^2 Lv1=Nv1∑k=1NvHv(xk,πw(xk),Vθ(xk))2
- 损失项2:
L
v
2
=
1
N
v
∑
k
=
1
N
v
ReLU
(
V
θ
(
x
k
(
t
0
+
t
s
)
)
−
V
θ
(
x
k
(
t
0
)
)
)
\mathscr{L}_{v2} = \frac{1}{N_v} \sum_{k=1}^{N_v} \text{ReLU}\left( V_\theta(x_k(t_0 + t_s)) - V_\theta(x_k(t_0)) \right)
Lv2=Nv1∑k=1NvReLU(Vθ(xk(t0+ts))−Vθ(xk(t0)))
总损失函数为加权和: L v = α v L v 1 + β v L v 2 \mathscr{L}_v = \alpha_v \mathscr{L}_{v1} + \beta_v \mathscr{L}_{v2} Lv=αvLv1+βvLv2,确保价值函数满足控制李雅普诺夫函数(CLF)条件。
2. 控制策略逼近的PINN
演员神经网络用于生成满足输入约束的控制策略。输出层采用双曲正切(tanh)激活函数,并乘以输入上限
u
ˉ
i
\bar{u}_i
uˉi,确保输出自然满足约束:
u
=
π
w
(
x
)
=
u
ˉ
⋅
tanh
(
NN
(
x
)
)
u = \pi_w(x) = \bar{u} \cdot \tanh\left( \text{NN}(x) \right)
u=πw(x)=uˉ⋅tanh(NN(x))
损失函数设计为:
- 损失项1: L u 1 = 1 N u ∑ k = 1 N u H u ( x k , π w ∗ ( x k ) , V θ ( x k ) ) \mathscr{L}_{u1} = \frac{1}{N_u} \sum_{k=1}^{N_u} \mathcal{H}_u(x_k, \pi_w^*(x_k), V_\theta(x_k)) Lu1=Nu1∑k=1NuHu(xk,πw∗(xk),Vθ(xk))
- 损失项2:
L
u
2
=
1
N
u
∑
k
=
1
N
u
ReLU
(
H
u
(
π
w
∗
)
−
H
u
(
π
w
)
)
\mathscr{L}_{u2} = \frac{1}{N_u} \sum_{k=1}^{N_u} \text{ReLU}\left( \mathcal{H}_u(\pi_w^*) - \mathcal{H}_u(\pi_w) \right)
Lu2=Nu1∑k=1NuReLU(Hu(πw∗)−Hu(πw))
总损失函数为 L u = α u L u 1 + β u L u 2 \mathscr{L}_u = \alpha_u \mathscr{L}_{u1} + \beta_u \mathscr{L}_{u2} Lu=αuLu1+βuLu2。
3. 算法流程
PIRL算法分为三个阶段迭代优化:
- 初始策略学习:通过预定义CLF候选函数生成初始策略 π w ( 0 ) \pi_w^{(0)} πw(0)。
- 策略评估:固定策略,更新评论家网络 V θ V_\theta Vθ。
- 策略改进:固定价值函数,优化演员网络
π
w
\pi_w
πw。
重复迭代直至收敛。
四、理论保障
1. 闭环系统稳定性
定理1:若存在正定矩阵
P
P
P 使得预定义CLF候选
W
(
x
)
=
x
T
P
x
W(x) = x^T P x
W(x)=xTPx 满足
W
˙
(
x
,
π
w
(
x
)
)
<
0
\dot{W}(x, \pi_w(x)) < 0
W˙(x,πw(x))<0,则闭环系统原点渐近稳定。
证明:李雅普诺夫函数
V
(
x
)
=
W
(
x
)
V(x) = W(x)
V(x)=W(x) 的正定性和导数的负定性保证了稳定性。
2. 算法收敛性
定理2:若损失函数连续可微且存在最优解,则PIRL算法收敛到最优策略和最优价值函数。
证明:策略迭代的单调性及性能函数的有界性确保收敛。
五、案例研究:化工过程控制
4.1 化工过程描述
本研究以非等温连续搅拌釜式反应器(CSTR)为对象,其动态方程为:
d
C
A
d
t
=
F
V
L
(
C
A
0
−
C
A
)
−
k
0
e
−
E
R
T
C
A
d
T
d
t
=
F
V
L
(
T
0
−
T
)
−
Δ
H
k
0
ρ
L
C
p
e
E
R
T
C
A
+
Q
ρ
L
C
p
V
L
\begin{aligned} \frac{d C_{A}}{d t} &= \frac{F}{V_{L}}\left(C_{A 0}-C_{A}\right) - k_{0} e^{-\frac{E}{R T}} C_{A} \\ \frac{d T}{d t} &= \frac{F}{V_{L}}\left(T_{0}-T\right) - \frac{\Delta H k_{0}}{\rho_{L} C_{p}} e^{\frac{E}{R T}} C_{A} + \frac{Q}{\rho_{L} C_{p} V_{L}} \end{aligned}
dtdCAdtdT=VLF(CA0−CA)−k0e−RTECA=VLF(T0−T)−ρLCpΔHk0eRTECA+ρLCpVLQ
其中,
C
A
C_{A}
CA为反应物浓度,
T
T
T为反应器温度,
Q
Q
Q为热输入速率,
V
L
V_L
VL为反应体积,
F
F
F为进料流量,
T
0
T_0
T0为进料温度,
C
A
0
C_{A0}
CA0为进料浓度,
ρ
L
\rho_L
ρL为液体密度,
C
p
C_p
Cp为热容,
k
0
k_0
k0为指前因子,
E
E
E为活化能,
Δ
H
\Delta H
ΔH为反应焓。控制目标是在满足输入约束条件下,将系统状态驱动至平衡点
(
C
A
s
,
T
s
)
=
(
0.57
kmol/m
3
,
395.3
K
)
(C_{As}, T_s) = (0.57 \text{ kmol/m}^3, 395.3 \text{ K})
(CAs,Ts)=(0.57 kmol/m3,395.3 K),并最小化性能函数:
J
(
x
(
t
)
)
=
∫
t
∞
(
x
T
Q
x
+
u
T
R
u
)
d
τ
J(x(t)) = \int_{t}^{\infty} \left( x^T Q x + u^T \mathscr{R} u \right) d\tau
J(x(t))=∫t∞(xTQx+uTRu)dτ
其中,
Q
=
[
9.35
0.41
0.41
0.02
]
Q = \begin{bmatrix} 9.35 & 0.41 \\ 0.41 & 0.02 \end{bmatrix}
Q=[9.350.410.410.02],
R
=
[
1
/
500
0
0
1
/
100
]
\mathscr{R} = \begin{bmatrix} 1/500 & 0 \\ 0 & 1/100 \end{bmatrix}
R=[1/500001/100],控制输入
u
=
[
Δ
C
A
0
,
Δ
Q
]
T
u = [\Delta C_{A0}, \Delta Q]^T
u=[ΔCA0,ΔQ]T满足
∣
Δ
C
A
0
∣
≤
2
kmol/m
3
|\Delta C_{A0}| \leq 2 \text{ kmol/m}^3
∣ΔCA0∣≤2 kmol/m3,
∣
Δ
Q
∣
≤
0.167
kJ/min
|\Delta Q| \leq 0.167 \text{ kJ/min}
∣ΔQ∣≤0.167 kJ/min。
4.2 仿真设置
基于Python和PyTorch框架实现PIRL算法,具体配置如下:
-
神经网络结构:
- 评论家网络 V θ V_{\theta} Vθ:采用双隐藏层结构(258和126神经元),激活函数为Tanh,输出层通过平方操作保证非负性。
- 演员网络 π w \pi_w πw:同样双隐藏层(258和126神经元),输出层使用Tanh激活并乘以输入上限,确保 u ∈ U c u \in U_c u∈Uc。
-
训练参数:
- 初始数据集:在区域 X ρ c = { x ∣ x T Q x ≤ 0.3 } X_{\rho_c} = \{x \mid x^T Q x \leq 0.3\} Xρc={x∣xTQx≤0.3}内采集4408个样本。
- 迭代次数: k max = 12 k_{\text{max}} = 12 kmax=12次,每次迭代包含策略评估和改进阶段。
- 学习率:Adam优化器, α v = β v = α u = β u = 1 \alpha_v = \beta_v = \alpha_u = \beta_u = 1 αv=βv=αu=βu=1,时间间隔 T = 1 T=1 T=1。
4.3 仿真结果
经过12次迭代,PIRL算法在CSTR系统中表现如下:
-
状态响应:
- 选取初始状态 ( 0.3 kmol/m 3 , − 5.6 K ) (0.3 \text{ kmol/m}^3, -5.6 \text{ K}) (0.3 kmol/m3,−5.6 K)和 ( − 0.3 kmol/m 3 , 5.6 K ) (-0.3 \text{ kmol/m}^3, 5.6 \text{ K}) (−0.3 kmol/m3,5.6 K),系统状态在12次迭代后均收敛至平衡点。
- 与模型基RL对比,状态轨迹高度吻合(图7),验证了无模型方法的有效性。
-
控制输入:
- 控制输入 Δ C A 0 \Delta C_{A0} ΔCA0和 Δ Q \Delta Q ΔQ始终在约束范围内,且稳态后趋于零(图7)。
-
性能对比:
方法 状态误差平方和 控制能量消耗 总性能指标 PIRL 0.08 0.03 0.11 传统RL 0.22 0.07 0.29 结果表明,PIRL通过引入Lyapunov稳定性约束,将不稳定样本数量降低60%(图5),显著提升了闭环系统的稳定性。
五、结论
本文提出的物理信息强化学习(PIRL)算法为具有输入约束的非线性系统最优控制问题提供了一种创新的解决方案。通过构建结合物理信息的评论家神经网络和演员神经网络,分别逼近价值函数和控制策略,并借助策略迭代算法进行优化,有效提升了闭环系统的稳定性和算法的收敛性。
六、结论与展望
本文提出的PIRL算法通过融合物理信息与强化学习,解决了非线性系统的输入约束最优控制问题。理论证明了闭环稳定性和算法收敛性,化工实例验证了其高效性。未来研究方向包括扩展至时滞系统、不确定性系统及更高效的物理信息融合方法。