Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control,2022, Mingming Ha, Ding Wang, Senior Member, IEEE, and Derong Liu, Fellow, IEEE
定义新的代价函数形式以及稳定分析方法,基于值迭代自适应批评框架求解跟踪控制问题。对于自适应评价跟踪问题,一般需要求解反馈控制和前馈控制输入。对于某些非线性系统,参考轨迹的前馈控制输入可能不存在。
为避免计算前馈控制输入,根据Actor–Critic-Based Optimal Tracking for Partially Unknown Nonlinear Discrete-Time Systems中所提出的性能指标,但最小化控制输入并不总是导致跟踪误差的最小化,且需要避免求解前馈控制输入。
又根据A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems✩2021改进性能指标
根据B. Lincoln and A. Rantzer, “Relaxing dynamic programming,”其第一次提出迭代值函数的上下界和VI的收敛性。在A. Heydari, “Stability analysis of optimal adaptive control under value iteration using a stabilizing initial policy,”给出初始化稳定控制策略稳定VI算法,以上可保证迭代控制策略使系统稳定。
给出VI算法的值更新和策略提升步骤。Lemma1给出迭代值函数是单调不增的,且在折扣因子下迭代值函数和最优值函数的不等式,以及迭代值函数和控制策略收敛到最优。
根据Generalized value iteration for discounted optimal control with stability analysis,讨论折扣因子对最优和迭代控制策略的稳定性的影响。
如果折扣因子选取不当,不能保证闭环系统的稳定性,由于迭代值函数中不仅有跟踪误差,还包括参考控制输入,故不能视为李雅普诺夫函数。因此提出新的稳定性分析保证跟踪误差收敛于零。
假设初始值函数为0,Theorem1给出折扣因子条件满足的条件,最优控制下跟踪误差趋于0。证明方法为数学归纳和级数收敛。由于最优值函数在一开始未知,Theorem2给出在相应的折扣因子满足的条件下,迭代控制策略下跟踪误差趋于0。Theorem3讨论函数近似器(神经网络)的近似误差的条件,满足近似迭代值函数和折扣因子的条件,则跟踪误差趋于0。
后续给出线性系统下具有自适应评价的折扣跟踪控制问题,其关键为核矩阵P(即值函数的二次型形式)和状态反馈增益矩阵K。两者需满足在折扣因子下的某种不等式条件,使得在迭代控制策略下实现跟踪误差趋于0.