Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control

最新推荐文章于 2024-09-05 11:32:26 发布

LucienLSA

最新推荐文章于 2024-09-05 11:32:26 发布

阅读量308

点赞数 3

文章标签：笔记学习

本文链接：https://blog.csdn.net/DarlingLSA/article/details/136787514

版权

Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control，2022， Mingming Ha, Ding Wang, Senior Member, IEEE, and Derong Liu, Fellow, IEEE

定义新的代价函数形式以及稳定分析方法，基于值迭代自适应批评框架求解跟踪控制问题。对于自适应评价跟踪问题，一般需要求解反馈控制和前馈控制输入。对于某些非线性系统，参考轨迹的前馈控制输入可能不存在。
为避免计算前馈控制输入，根据Actor–Critic-Based Optimal Tracking for Partially Unknown Nonlinear Discrete-Time Systems中所提出的性能指标，但最小化控制输入并不总是导致跟踪误差的最小化，且需要避免求解前馈控制输入。
在这里插入图片描述
又根据A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems✩2021改进性能指标

根据B. Lincoln and A. Rantzer, “Relaxing dynamic programming,”其第一次提出迭代值函数的上下界和VI的收敛性。在A. Heydari, “Stability analysis of optimal adaptive control under value iteration using a stabilizing initial policy,”给出初始化稳定控制策略稳定VI算法，以上可保证迭代控制策略使系统稳定。
给出VI算法的值更新和策略提升步骤。Lemma1给出迭代值函数是单调不增的，且在折扣因子下迭代值函数和最优值函数的不等式，以及迭代值函数和控制策略收敛到最优。

根据Generalized value iteration for discounted optimal control with stability analysis，讨论折扣因子对最优和迭代控制策略的稳定性的影响。
如果折扣因子选取不当，不能保证闭环系统的稳定性，由于迭代值函数中不仅有跟踪误差，还包括参考控制输入，故不能视为李雅普诺夫函数。因此提出新的稳定性分析保证跟踪误差收敛于零。

假设初始值函数为0，Theorem1给出折扣因子条件满足的条件，最优控制下跟踪误差趋于0。证明方法为数学归纳和级数收敛。由于最优值函数在一开始未知，Theorem2给出在相应的折扣因子满足的条件下，迭代控制策略下跟踪误差趋于0。Theorem3讨论函数近似器（神经网络）的近似误差的条件，满足近似迭代值函数和折扣因子的条件，则跟踪误差趋于0。

后续给出线性系统下具有自适应评价的折扣跟踪控制问题，其关键为核矩阵P（即值函数的二次型形式）和状态反馈增益矩阵K。两者需满足在折扣因子下的某种不等式条件，使得在迭代控制策略下实现跟踪误差趋于0.
在这里插入图片描述

LucienLSA

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control

由于最优值函数在一开始未知，Theorem2给出在相应的折扣因子满足的条件下，迭代控制策略下跟踪误差趋于0。Theorem3讨论函数近似器（神经网络）的近似误差的条件，满足近似迭代值函数和折扣因子的条件，则跟踪误差趋于0。如果折扣因子选取不当，不能保证闭环系统的稳定性，由于迭代值函数中不仅有跟踪误差，还包括参考控制输入，故不能视为李雅普诺夫函数。给出VI算法的值更新和策略提升步骤。Lemma1给出迭代值函数是单调不增的，且在折扣因子下迭代值函数和最优值函数的不等式，以及迭代值函数和控制策略收敛到最优。
复制链接

扫一扫