Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control Biao Luo, Member, IEEE, Derong Liu, Fellow, IEEE, Huai-Ning Wu, Ding Wang, Member, IEEE,andFrankL.Lewis,Life Fellow, IEEE
对离散时间非线性系统提出model-free最优控制问题,基于数据的PGADP算法设计最优控制器。使用离散和在线数据而非系统模型,该PGADP以梯度下降法改进控制策略。构造Qfunction收敛到最优,基于actor-critic和加权残差法。
model-based系统模型完全已知,ADP近似求解HJB(最小二乘法);partially model-based系统模型部分已知,ADP根据数据和系统模型近似设计控制器;model-free系统模型完全未知,基于数据学习控制策略,由模型网络近似系统模型,评价网络近似值函数,动作网络近似控制策略。文章基于Qlearning方法理论和对model-free系统发展。
对非线性离散系统求解的最优值函数和最优控制策略,难以对非线性微分方程求解,且系统模型未知。
Definition1给出可容许控制定义
构造Qfunction,给出最优Qfunction和最优控制策略表达。Algorithm1为PGADP算法,a:离线或异策略算法,通过执行其他探索性行为策略实现最优控制策略;在线或同策略算法,评估目标控制策略需要使用该策略产生系统的数据,这带来探索不足的问题。b:策略梯度方法,仅需要一步更新控制策略。而传统的ADP方法,需要贪婪的策略提升,即控制策略在当前值函数下进行更新得到最优控制策略,通常不切实际和巨大的计算。c:PGADP算法是基于数据。
证明PGADP算法收敛,引入哈密顿函数,在可容许控制策略下给出迭代值函数。
Theorem1给出在可容许控制下,迭代控制策略由Algorithm1给出,假设值函数和权重的微分存在,定义哈密顿函数的微分常数,得到迭代控制策略下
H
(
x
k
,
u
(
i
+
1
)
,
V
(
i
)
)
≤
0
;
H(x_{k},u^{(i+1)},V^{(i)})\leq0;
H(xk,u(i+1),V(i))≤0;
u
(
i
)
(
x
)
∈
U
(
X
)
,
∀
i
.
u^{(i)}(x)\in\mathfrak{U}(\mathcal{X}),\forall i.
u(i)(x)∈U(X),∀i.
证明引入二阶Taylor多项式,对哈密顿函数的二阶Taylor多项式,对微分项常数,由一元二次不等式,使迭代控制策略下哈密顿函数单调不增性。对迭代值函数构造做差的李雅普诺夫函数,系统渐进稳定,数学归纳法证明后续迭代控制策略满足也是可容许的。
Theorem2给出由Algorithm1产生的迭代Qfunction和控制策略,满足Qfunction的单调不增且,迭代Qfunction大于等于最优Qfunction,迭代Qfunction最终收敛到最优Qfunction。
PGADP的基本框架
(
x
,
u
,
x
′
)
(x,u,x')
(x,u,x′)由实际系统测量得到的数据,x’是在控制u和状态x下的下一个系统状态。实际PGADP自适应控制下,x’由传感器测量,而不是根据系统模型f。
以上的PGADP自适应控制是在线方法,其算法的数据部分包括两种(offline dataset和online dataset)。在PGADP算法开始前采集离线数据集(任意控制域下从实际系统采样)。
S
M
S_M
SM为离线数据集,
s
k
s_k
sk为在线数据集
Actor-CriticNN以计算未知的迭代Qfunction和迭代控制策略。
Qfunction和控制策略近似为
PGADP中策略评估和策略提升对评价网络权重和动作网络权重进行更新。定义残差
具体采用加权残差法,使加权残差为0
离线和在线数据集下评价网络权重向量计算
同理动作网络权重向量计算
动作网络权重更新
离线数据信息收集
在线数据信息收集
由以上权重更新需要
(
A
k
−
B
k
)
(\mathcal{A}_k-\mathcal{B}_k)
(Ak−Bk)和
F
k
\mathcal{F}_k
Fk是可逆的。
离线数据集获得方法a:增加大小M;b:采集具有不同初始状态的系统数据;c:采用输入信号(随机噪声、频率足够的正弦函数噪声)。
Theorem3给出在评价网络权重向量更新下,存在常数
Algorithm2为基于PGADP的自适应控制步骤,收集离线数据,计算初始参数,在可容许控制下,策略评估和策略提升。
在线数据实时反映系统信息,在线调整神经网络权重,但在线数据按单一轨迹收集的数据,不能实现探索充分问题。而离线数据从不同轨迹收集数据,可通过任意探索性控制策略。
离线数据不仅初始化权重,还能实时更新NN权重,PGADP算法的自适应控制方法离线/异策略学习,允许任意数据的学习,且离线数据包括足够多的系统动力学信息。
总结
- PGADP可用于非仿射非线性系统,而大多数ADO方法适用于线性系统和仿射非线性系统。
- PGADP是异策略学习算法。
- 策略梯度法实现策略改进,而传统的方法则是贪婪策略改进法,其适用于线性和仿射非线性系统。
- PGADP基于Qfunction的状态动作值函数,而其他方法则是状态值函数。
- PGADP采用离线系统数据集求解最优控制策略,而其他传统方法则是根据当前系统数据,使用后便丢失。
- PGADP针对离散系统