Policy Gradient Adaptive Critic Designs for Model-Free Optimal Tracking Control WithExperience Replay, 2022,Mingduo Lin, Bo Zhao , Senior Member, IEEE, and Derong Liu , Fellow, IEEE
对离散非线性系统采用策略梯度自适应评价方法(PGACD)与经验重放(ER),求解model-free最优跟踪控制器。最优跟踪控制问题转化为最优调节问题,off-policy PGACD算法最小化迭代Qfunction和提升跟踪控制性能。基于评价网络和动作网络近似迭代Qfunction和迭代控制策略。策略梯度计算,仅利用测量系统数据,推导出新的网络权值更新规律。证明收敛,利用李雅普诺夫直接法证明基于PGACD控制器的闭环系统的稳定性,动作网络和评价网络的权重近似误差是最终一致有界UUB,为保证稳定性和增加学习过程中的数据利用率,基于经验重复ER以提高可实现性。
潜在问题:在大规模和高度非线性实际应用中,精确系统模型难以确定;大量测量数据收集与存储导致低效;需要系统数据充分探索以获得最优控制器;PG方法下非线性系统稳定性还存在问题。
PG算法,动作网络新的权重更新方法,不需要系统精确模型;off-policy learning跟踪控制器,以不同策略的测量数据对目标策略进行评估,在学习过程中可避免不充分探索问题;经验重放ER使用批量系统数据。
跟踪误差动力学
原系统转化为增广系统,则原系统的最优跟踪控制问题转化为增广系统的最优调节问题
给出Qfunction,根据贝尔曼最优性原理
可容许控制策略u使系统稳定且保证性能指标函数是有界的。
由于复杂非线性,最优Qfunction难以求解HJB方程,且系统动力学未知,model-based方法不能实现。
PGADP算法函数近似方法,类似于ADP,不需要精确系统模型。对比随机PG方法,PG算法更有效计算其值。动作网络学习控制策略,通常需要动力学模型,因此适合无模型控制。模型网络以近似系统动力学,但存在计算负担和近似误差。该算法仅依赖于系统数据,不需要精确的系统模型或系统辨识。
通过评估策略获得学习的数据,on-policy学习算法具有低探索效率的特性。在线学习过程中时间消耗性,学习数据由当前控制策略生成且仅使用一次。因此off-policy在学习过程以随机或探索方式学习目标策略。
Algorithm1 给出PGADP方法解决model-free optimal tracking control
Theorem1给出在迭代Qfunction和迭代控制策略下,
u
0
(
t
)
u_0(t)
u0(t)为可容许控制策略,定义泰勒展开式项,满足以下不等式时
有迭代Qfunction关于控制策略
u
i
u_i
ui单调不增。证明根据泰勒展示式的二次多项式
Theorem2给出迭代Qfunction和迭代控制策略下,有迭代Qfunction关于
Q
i
Q_i
Qi的单调不增
Theorem3给出迭代Qfunction和迭代控制策略下,迭代Qfunction最终收敛到最优
Algorithm2 给出Off-policy的PGACD算法
经验重放ER,历史数据存储在记忆缓存区,学习过程中反复抽样以训练神经网络。ER有效进行数据收集
系统状态满足PE条件,为保证NN权重更新,提出的PGACD方法存储大量数据,以增加记忆存储区M的大小;提出的off-policy的model free optimal tracking control以随机或目标控制策略,批量学习数据以更新神经网络权重。
根据神经网络近似误差动力学学习网络权重。Assumption1给出动作网络和评价网络的理想权重满足有界性
Assumption2给出在激活函数及其导数下,其有界性,重构误差定义,给出其有界性。
Theorem4给出非线性系统PGACD算法下,动作网络和评价网络权重更新,在假设1和2下,两个网络近似误差是UUB的。
误差不等式满足时,由lyapunov直接法,两个神经网络权重近似误差是UUB的。在未知下一个时刻状态信息情况下,根据最优Qfunction可得到最优控制策略。
最小二乘以求解
Z
T
Z
Z^{T}Z
ZTZ的逆,需要其是满秩的。
针对切换非线性系统提出,而PGACD是针对DT系统,而非CT系统。基于backstepping框架实现。
显式数学模型或模型网络,自适应学习控制策略,而不是用系统数据;基于数据方法,系统函数 g ( ) g() g()不需要;也可适用于非线性非仿射离散时间系统。
初始神经网络权重选择是根据直觉和经验,对其权重选择需要进一步研究