Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control

Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control,2022, Mingming Ha, Ding Wang, Senior Member, IEEE, and Derong Liu, Fellow, IEEE

定义新的代价函数形式以及稳定分析方法,基于值迭代自适应批评框架求解跟踪控制问题。对于自适应评价跟踪问题,一般需要求解反馈控制和前馈控制输入。对于某些非线性系统,参考轨迹的前馈控制输入可能不存在。
为避免计算前馈控制输入,根据Actor–Critic-Based Optimal Tracking for Partially Unknown Nonlinear Discrete-Time Systems中所提出的性能指标,但最小化控制输入并不总是导致跟踪误差的最小化,且需要避免求解前馈控制输入。
在这里插入图片描述
又根据A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems✩2021改进性能指标
在这里插入图片描述

根据B. Lincoln and A. Rantzer, “Relaxing dynamic programming,”其第一次提出迭代值函数的上下界和VI的收敛性。在A. Heydari, “Stability analysis of optimal adaptive control under value iteration using a stabilizing initial policy,”给出初始化稳定控制策略稳定VI算法,以上可保证迭代控制策略使系统稳定。
给出VI算法的值更新和策略提升步骤。Lemma1给出迭代值函数是单调不增的,且在折扣因子下迭代值函数和最优值函数的不等式,以及迭代值函数和控制策略收敛到最优。

根据Generalized value iteration for discounted optimal control with stability analysis,讨论折扣因子对最优和迭代控制策略的稳定性的影响。
如果折扣因子选取不当,不能保证闭环系统的稳定性,由于迭代值函数中不仅有跟踪误差,还包括参考控制输入,故不能视为李雅普诺夫函数。因此提出新的稳定性分析保证跟踪误差收敛于零。

假设初始值函数为0,Theorem1给出折扣因子条件满足的条件,最优控制下跟踪误差趋于0。证明方法为数学归纳和级数收敛。由于最优值函数在一开始未知,Theorem2给出在相应的折扣因子满足的条件下,迭代控制策略下跟踪误差趋于0。Theorem3讨论函数近似器(神经网络)的近似误差的条件,满足近似迭代值函数和折扣因子的条件,则跟踪误差趋于0。

后续给出线性系统下具有自适应评价的折扣跟踪控制问题,其关键为核矩阵P(即值函数的二次型形式)和状态反馈增益矩阵K。两者需满足在折扣因子下的某种不等式条件,使得在迭代控制策略下实现跟踪误差趋于0.
在这里插入图片描述

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值