PG Adaptive Critic Designs for Model-Free Optimal Tracking Control With Experience Replay

Policy Gradient Adaptive Critic Designs for Model-Free Optimal Tracking Control WithExperience Replay, 2022,Mingduo Lin, Bo Zhao , Senior Member, IEEE, and Derong Liu , Fellow, IEEE

对离散非线性系统采用策略梯度自适应评价方法(PGACD)与经验重放(ER),求解model-free最优跟踪控制器。最优跟踪控制问题转化为最优调节问题,off-policy PGACD算法最小化迭代Qfunction和提升跟踪控制性能。基于评价网络和动作网络近似迭代Qfunction和迭代控制策略。策略梯度计算,仅利用测量系统数据,推导出新的网络权值更新规律。证明收敛,利用李雅普诺夫直接法证明基于PGACD控制器的闭环系统的稳定性,动作网络和评价网络的权重近似误差是最终一致有界UUB,为保证稳定性和增加学习过程中的数据利用率,基于经验重复ER以提高可实现性。
潜在问题:在大规模和高度非线性实际应用中,精确系统模型难以确定;大量测量数据收集与存储导致低效;需要系统数据充分探索以获得最优控制器;PG方法下非线性系统稳定性还存在问题。

PG算法,动作网络新的权重更新方法,不需要系统精确模型;off-policy learning跟踪控制器,以不同策略的测量数据对目标策略进行评估,在学习过程中可避免不充分探索问题;经验重放ER使用批量系统数据。

跟踪误差动力学
在这里插入图片描述
原系统转化为增广系统,则原系统的最优跟踪控制问题转化为增广系统的最优调节问题
在这里插入图片描述
给出Qfunction,根据贝尔曼最优性原理
在这里插入图片描述
可容许控制策略u使系统稳定且保证性能指标函数是有界的。
由于复杂非线性,最优Qfunction难以求解HJB方程,且系统动力学未知,model-based方法不能实现。

PGADP算法函数近似方法,类似于ADP,不需要精确系统模型。对比随机PG方法,PG算法更有效计算其值。动作网络学习控制策略,通常需要动力学模型,因此适合无模型控制。模型网络以近似系统动力学,但存在计算负担和近似误差。该算法仅依赖于系统数据,不需要精确的系统模型或系统辨识。

通过评估策略获得学习的数据,on-policy学习算法具有低探索效率的特性。在线学习过程中时间消耗性,学习数据由当前控制策略生成且仅使用一次。因此off-policy在学习过程以随机或探索方式学习目标策略。

Algorithm1 给出PGADP方法解决model-free optimal tracking control

Theorem1给出在迭代Qfunction和迭代控制策略下, u 0 ( t ) u_0(t) u0(t)为可容许控制策略,定义泰勒展开式项,满足以下不等式时
在这里插入图片描述
有迭代Qfunction关于控制策略 u i u_i ui单调不增。证明根据泰勒展示式的二次多项式

Theorem2给出迭代Qfunction和迭代控制策略下,有迭代Qfunction关于 Q i Q_i Qi的单调不增
Theorem3给出迭代Qfunction和迭代控制策略下,迭代Qfunction最终收敛到最优

Algorithm2 给出Off-policy的PGACD算法

经验重放ER,历史数据存储在记忆缓存区,学习过程中反复抽样以训练神经网络。ER有效进行数据收集
在这里插入图片描述
系统状态满足PE条件,为保证NN权重更新,提出的PGACD方法存储大量数据,以增加记忆存储区M的大小;提出的off-policy的model free optimal tracking control以随机或目标控制策略,批量学习数据以更新神经网络权重。

根据神经网络近似误差动力学学习网络权重。Assumption1给出动作网络和评价网络的理想权重满足有界性
在这里插入图片描述
Assumption2给出在激活函数及其导数下,其有界性,重构误差定义,给出其有界性。

Theorem4给出非线性系统PGACD算法下,动作网络和评价网络权重更新,在假设1和2下,两个网络近似误差是UUB的。
误差不等式满足时,由lyapunov直接法,两个神经网络权重近似误差是UUB的。在未知下一个时刻状态信息情况下,根据最优Qfunction可得到最优控制策略。
最小二乘以求解 Z T Z Z^{T}Z ZTZ的逆,需要其是满秩的。

针对切换非线性系统提出,而PGACD是针对DT系统,而非CT系统。基于backstepping框架实现。

显式数学模型或模型网络,自适应学习控制策略,而不是用系统数据;基于数据方法,系统函数 g ( ) g() g()不需要;也可适用于非线性非仿射离散时间系统。

初始神经网络权重选择是根据直觉和经验,对其权重选择需要进一步研究

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值