Online Optimal Control of Affine Nonlinear DT Systems With Unknown Internal Dynamics by Using Time-B

Online Optimal Control of Affine Nonlinear Discrete-Time Systems With Unknown Internal Dynamics by Using Time-Based Policy Update ,2012,Travis Dierks, Member, IEEE, and Sarangapani Jagannathan, Senior Member, IEEE

对仿射非线性离散时间系统,不使用策略迭代和值迭代方法,使用神经网络时间上向前求解HJB方程得到最优控制。
未知内部动力学和已知的控制协矩阵(仅需要输入增益),近似代价函数即评价网络,产生控制输入和策略更新即动作网络。在采样时刻对代价函数额和控制策略一次更新,称为time-based ADP。李雅普诺夫理论证明所有信号是一致最终有界,近似控制策略逼近最优控制策略以很小的有界误差,神经网络权重估计值接近目标值,此时代价函数和控制策略随时间更新。
作者以往文献提出使用单个网络近似评价和动作,未使用迭代算法,考虑网络近似误差,但仍需要系统完全动力学。K. G. Vamvoudakis and F. L. Lewis, “Online actor–critic algorithm to solve the continuous-time infinite horizon optimal control problem,”中未使用使用系统性能的时间历史。闭环系统是在固定的常数下有界,而本文提出的有界是动态时变的。
初始可稳定控制策略,评价网络在线学习HJB方程,动作网络基于评价网络的信息使得代价函数最小化。网络的权重更新使用过去性能指标的历史信息,其存储在辅助cost-to-go向量中。

在这里插入图片描述
由于最优控制需要未来时刻状态向量,不可直接求解。而在以往文献的值和策略迭代不适合实时控制,因为近似代价函数和控制输入是未知的。
稳定性需要满足,以候选正定李雅普诺夫函数 V D V_D VD,使其小于0,因此需要满足系统 ∣ ∣ f ( x k ) + g ( x k ) u ∗ ( x k ) ∣ ∣ 2 − ∣ ∣ x k ∣ ∣ 2 ||f(x_k)+g(x_k)u^{*}(x_k)||^2-||x_k||^2 ∣∣f(xk)+g(xk)u(xk)2∣∣xk2,有 k ∗ < 1 k^{*}<1 k<1成立
在这里插入图片描述

定义CTG误差或残差,再定义辅助CTG误差向量,给出其误差动力学,类似于一个非线性离散时间系统,以神经网络结构。
Lemma1给出在可容许控制策略下系统渐进稳定,激活函数线性独立,以及其差值也是线性独立的。
定义代价函数神经网络权重
在这里插入图片描述
一旦系统状态为0,代价函数不再更新,因此需要PE条件(输入持续激励),使得系统状态存在较长时间,学习神经网络。定义神经网络误差,给出在固定控制策略下代价函数网络近似误差的有界性,和评价网络近似误差
Definition2给出一致最终有界,Theorem1给出在固定可容许控制策略和代价函数网络权重更新下,存在一个常数使得评价网络权重近似误差是一致最终有界(UUB)
定义控制网络误差以及权重更新,构建动作网络权重误差动力学,即需要输入控制矩阵 g ( x ) g(x) g(x)
在这里插入图片描述
动作网络权重更新在最优控制策略应用到系统的下一时刻(k+1)进行。
初始状态位于紧集上,可稳定的控制输入下,由充分条件确保未来状态不离开紧集,代价函数及梯度和动作网络函数都是有界的。
Theorem2给出在可容许控制策略、PE条件和对应网络权重更新和正常数条件下,系统状态代价函数网络和动作网络权重近似误差都是一致最终有界的
在这里插入图片描述

matlab仿真:离散系统的策略迭代在线更新

代码私聊

  • 29
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值