General value iteration based RL for solving OTC problem of CT affine nonlinear systems-CSDN博客

本文链接：https://blog.csdn.net/DarlingLSA/article/details/136779591

General value iteration based reinforcement learning for solving optimal tracking control problem of continuous–time affine nonlinear systems ，2017，Geyang Xiao, Huaguang Zhang , Yanhong Luo， Qiuxia Qu

对仿射非线性系统连续时间，采用广义值迭代法求解最优跟踪控制问题。提出假设放宽对初始可容许控制策略的限制条件。三种情况证明任意初始性能指标的收敛性。文章仿真以非线性弹簧质量阻尼器系统，采用神经网络分析文章内容有效性。
基于PI算法，初始可容许控制被认为是次最优控制，需要求解非线性偏微分方程。而VI算法不需要初始可容许控制，传统VI算法需要初始值函数为0。根据Q. Wei, D. Liu, Y. Xu, Neuro-optimal tracking control for a class of discretetime nonlinear systems via generalized value iteration adaptive dynamic programming approach是基于离散时间DT的广义VI方法解决OTCP问题。
Assumption1给出期望轨迹是有界的，且其动力学是locally Lipschitz function满足。Assumption2给出输入矩阵g(x)有界，且稳定状态控制由以下得出

在这里插入图片描述
稳态控制策略是固定的，且根据跟踪误差控制策略定义性能值函数。

因为期望轨迹是有界的，稳态状态控制一般非零，所以控制输入可能非零。尽管折扣因子能保证当跟踪误差和控制输入有界情况下，性能指标函数是有界，但跟踪误差的渐进稳定性不能保证。误差动力学系统表达式为
在这里插入图片描述
使以上值函数最小化。其误差动力学系统不仅与跟踪误差有关，还包括期望轨迹。构建增广系统动力学，将误差动力学和期望轨迹动力学结构。

以上(13)值函数为候选李雅普诺夫函数，对其微分，构造哈密顿函数。但满足最优值函数和最优跟踪误差控制时
在这里插入图片描述

Definition1给出可容许控制条件。广义值迭代算法方程。
在这里插入图片描述
Definition2给出控制的可积性。
Assumption4给出初始性能函数满足基于正常数最优值函数上下界；Assumption5给出基于正常数效用函数积分与最优值函数的上下界。
Theorem1给出在Assumption4迭代值函数的有界性， $\alpha<1$ 。证明方法基于数学归纳
在这里插入图片描述
Theorem2给出在Assumption4， $\alpha$ 。同Theorem1

Theorem3给出在Assumption4， $\alpha>=1$

Theorem4给出迭代值函数的收敛性，收敛到最优值函数。证明条件通过以上假定的正常数，广义VI算法初始任意半正定值函数，得到最优跟踪控制问题的解。
由于以上GVI算法是离线训练样本数据的迭代算法，使用在线方法求解最优跟踪控制问题需要PE条件。

三层BP神经网络，构造Actor-Critic网络，评价网络近似迭代值函数，动作网络近似迭代跟踪误差控制策略
$\Phi(\xi)=W\varphi(Y\xi+b)+\varepsilon(\xi)$
评价网络
$\hat{V}_i(\xi)=W_{c(i)}\varphi(Y_{c(i)}\xi+b_{c(i)})$
动作网络
$\hat{\mu}_i(\xi)=W_{\mu(i)}\varphi(Y_{\mu(i)}\xi+b_{\mu(i)})$
误差函数构造
$\begin{aligned}e_{c(i)}^j(\xi)&=W_{c(i)}^j\varphi(Y_{c(i)}^j\xi+b_{c(i)}^j)-\int_{t}^{t+\Delta t}r(\xi(\tau),\hat{\mu}_{i-1}(\tau))\mathrm{d}\tau\\&-\hat{V}_{i-1}(\xi^{\hat{\mu}_{i-1}}(t+\Delta t))\end{aligned}$
根据梯度下降法，构造评价网络最小二乘形式，定义其权重。定义动作网络的误差函数，同理权重。