A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems

A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems✩,2021, Chun Li, Jinliang Ding, Frank L. Lewis, Tianyou Chai

对离散非线性系统的最优跟踪问题,提出新的值函数形式,以通过ADP算法消除跟踪误差。为避免求解参考控制输入,将控制输入引入控制跟踪误差中,忽略控制输入的二次型,使得最优控制策略仅与跟踪误差和参考跟踪轨迹有关。值函数的收敛性和有界性与折扣因子无关。基于提出的值迭代方法,在不考虑参考控制输入情况下推导出最优控制策略。根据VI和PI算法证明所得到控制策略的最优性,并推出迭代值函数的收敛性和单调性。采用神经网络和动作评价网络验证ADP算法有效性。

根据往年的文献,跟踪问题可转化为调节问题,但不易求解参考控制输入。可通过原系统和指令生成器组成增广系统,避免求解参考控制输入。当增广系统不可控,其边界与值函数的参数有关,则不能消除跟踪误差。

根据Actor–Critic-Based Optimal Tracking for Partially Unknown Nonlinear Discrete-Time Systems 2015提出的值函数进行改进。包含折扣因子 γ \gamma γ
在这里插入图片描述
在这里插入图片描述
以上的值函数形式在特殊情况下,跟踪误差不能被消除。因此对其改进值函数:
在这里插入图片描述
根据最优控制的必要条件得到最优控制的表达式,虽然不易直接计算,但是仍可作为控制策略的表达标准。

VI算法收敛性证明

在这里插入图片描述
Theorem1初始值函数( V 0 ( e k , x k ~ ) = 0 V_0(e_k, \tilde{x_k})=0 V0(ek,xk~)=0)给出在Assumption与策略提升和值更新下,迭代值函数的单调性、收敛性和迭代策略的收敛性。证明方法以数学归纳和放缩为主,假设辅助函数

PI算法收敛性证明

在这里插入图片描述
Theorem2初始控制策略必须是可容许的( π 0 ( e k , x k ~ ) π_0(e_k, \tilde{x_k}) π0(ek,xk~)),给出在Assumption与策略评估和策略提升下。内迭代值函数和外迭代值函数的单调性、控制策略和值函数的收敛性。
梯度下降法训练actor-critic和model网络。
在这里插入图片描述
动作网络得到迭代控制输入以实现策略提升评价网络计算迭代值函数以实现策略评估
Algorithm1 VI算法,本文假设的初始值函数为0;Algorithm1 PI算法,初始控制策略是可容许的,给出需要一定的迭代得到可容许控制策略。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值