PG Adaptive Critic Designs for Model-Free Optimal Tracking Control With Experience Replay_model-free optimal tracking control of nonlinear i-CSDN博客

本文链接：https://blog.csdn.net/darlinglsa/article/details/137206802

Policy Gradient Adaptive Critic Designs for Model-Free Optimal Tracking Control WithExperience Replay， 2022，Mingduo Lin, Bo Zhao , Senior Member, IEEE, and Derong Liu , Fellow, IEEE

对离散非线性系统采用策略梯度自适应评价方法(PGACD)与经验重放(ER)，求解model-free最优跟踪控制器。最优跟踪控制问题转化为最优调节问题，off-policy PGACD算法最小化迭代Qfunction和提升跟踪控制性能。基于评价网络和动作网络近似迭代Qfunction和迭代控制策略。策略梯度计算，仅利用测量系统数据，推导出新的网络权值更新规律。证明收敛，利用李雅普诺夫直接法证明基于PGACD控制器的闭环系统的稳定性，动作网络和评价网络的权重近似误差是最终一致有界UUB，为保证稳定性和增加学习过程中的数据利用率，基于经验重复ER以提高可实现性。
潜在问题：在大规模和高度非线性实际应用中，精确系统模型难以确定；大量测量数据收集与存储导致低效；需要系统数据充分探索以获得最优控制器；PG方法下非线性系统稳定性还存在问题。

PG算法，动作网络新的权重更新方法，不需要系统精确模型；off-policy learning跟踪控制器，以不同策略的测量数据对目标策略进行评估，在学习过程中可避免不充分探索问题；经验重放ER使用批量系统数据。

跟踪误差动力学
在这里插入图片描述
原系统转化为增广系统，则原系统的最优跟踪控制问题转化为增广系统的最优调节问题

给出Qfunction，根据贝尔曼最优性原理

可容许控制策略u使系统稳定且保证性能指标函数是有界的。
由于复杂非线性，最优Qfunction难以求解HJB方程，且系统动力学未知，model-based方法不能实现。

PGADP算法函数近似方法，类似于ADP，不需要精确系统模型。对比随机PG方法，PG算法更有效计算其值。动作网络学习控制策略，通常需要动力学模型，因此适合无模型控制。模型网络以近似系统动力学，但存在计算负担和近似误差。该算法仅依赖于系统数据，不需要精确的系统模型或系统辨识。

通过评估策略获得学习的数据，on-policy学习算法具有低探索效率的特性。在线学习过程中时间消耗性，学习数据由当前控制策略生成且仅使用一次。因此off-policy在学习过程以随机或探索方式学习目标策略。

Algorithm1 给出PGADP方法解决model-free optimal tracking control

Theorem1给出在迭代Qfunction和迭代控制策略下， $u_0(t)$ 为可容许控制策略，定义泰勒展开式项，满足以下不等式时
在这里插入图片描述
有迭代Qfunction关于控制策略 $u_i$ 单调不增。证明根据泰勒展示式的二次多项式

Theorem2给出迭代Qfunction和迭代控制策略下，有迭代Qfunction关于 $Q_i$ 的单调不增
Theorem3给出迭代Qfunction和迭代控制策略下，迭代Qfunction最终收敛到最优

Algorithm2 给出Off-policy的PGACD算法

经验重放ER，历史数据存储在记忆缓存区，学习过程中反复抽样以训练神经网络。ER有效进行数据收集
在这里插入图片描述
系统状态满足PE条件，为保证NN权重更新，提出的PGACD方法存储大量数据，以增加记忆存储区M的大小；提出的off-policy的model free optimal tracking control以随机或目标控制策略，批量学习数据以更新神经网络权重。

根据神经网络近似误差动力学学习网络权重。Assumption1给出动作网络和评价网络的理想权重满足有界性
在这里插入图片描述
Assumption2给出在激活函数及其导数下，其有界性，重构误差定义，给出其有界性。

Theorem4给出非线性系统PGACD算法下，动作网络和评价网络权重更新，在假设1和2下，两个网络近似误差是UUB的。
误差不等式满足时，由lyapunov直接法，两个神经网络权重近似误差是UUB的。在未知下一个时刻状态信息情况下，根据最优Qfunction可得到最优控制策略。
最小二乘以求解 $Z^{T}Z$ 的逆，需要其是满秩的。

针对切换非线性系统提出，而PGACD是针对DT系统，而非CT系统。基于backstepping框架实现。

显式数学模型或模型网络，自适应学习控制策略，而不是用系统数据；基于数据方法，系统函数 $g ()$ 不需要；也可适用于非线性非仿射离散时间系统。

初始神经网络权重选择是根据直觉和经验，对其权重选择需要进一步研究