A Novel Iterative -Adaptive Dynamic Programming for Discrete-Time Nonlinear Systems

本文介绍了一种针对离散时间非线性系统的迭代自适应动态编程(θ-ADP)方法,它无需初始可容许控制,通过迭代求解最优控制问题。算法保证了性能指标函数的收敛性,且适应在线或离线应用。通过神经网络逼近性能指标和控制策略,算法简化了策略迭代过程,提高了系统的稳定性。
摘要由CSDN通过智能技术生成

A Novel Iterative -Adaptive Dynamic Programming for Discrete-Time Nonlinear Systems ,2014,Qinglai Wei, Member, IEEE, and Derong Liu, Fellow, IEEE

对无限时域离散时间非线性确定性系统提出迭代 θ \theta θADP技术求解最优控制问题。该算法避免策略迭代PI算法需要初始可容许控制的条件。提出新的证明方法由迭代 θ \theta θADP算法得到的迭代控制能稳定非线性系统,即迭代 θ \theta θADP算法对在线或离线都是可行的。性能指标函数收敛性分析保证迭代性能指标函数将单调收敛到最优值。神经网络近似性能指标函数并计算最优控制策略。
核心思想为构建初始正定价值函数集合满足以下,选择不同的 θ \theta θ值执行值函数初始化
在这里插入图片描述

Definition1给出初始任意正定函数
在这里插入图片描述
则初始性能指标函数 V 0 = θ Ψ ( x k ) V_0=\theta\varPsi(x_k) V0=θΨ(xk) θ \theta θ为正常数,则得到初始迭代控制策略。迭代 θ − A D P \theta-ADP θADP算法如下
在这里插入图片描述
标准的HJB方程求解得到的性能指标函数是唯一的,而以上迭代ADP在每次迭代下,性能指标函数都不相同。同理标准HJB方程求得最优控制策略,而以上迭代ADP每次迭代下,迭代控制策略都不相同。
Lemma1给出迭代ADP迭代性能指标函数和迭代控制策略,迭代值函数可表示为
在这里插入图片描述
最优值函数由迭代值函数替代,一般来说迭代值函数更新所得不是最优的。
Lemma2给出任意控制策略下定义辅助值函数
在这里插入图片描述
Λ 0 ( x k ) = V 0 ( x k ) = θ Ψ ( x k ) \begin{aligned}\Lambda_0(x_k)=V_0(x_k)=\theta\Psi(x_k)\end{aligned} Λ0(xk)=V0(xk)=θΨ(xk),则 V i ( x k ) ≤ Λ i ( x k ) . \begin{aligned}V_i(x_k)\leq\Lambda_i(x_k).\end{aligned} Vi(xk)Λi(xk).
Corollary1给出任意稳定控制策略下,定义新性能指标函数
在这里插入图片描述
P 0 ( x k ) = V 0 ( x k ) = θ Ψ ( x k ) \begin{aligned}P_0(x_k)=V_0(x_k)=\theta\Psi(x_k)\end{aligned} P0(xk)=V0(xk)=θΨ(xk),则
V i ( x k ) ≤ P i ( x k ) V_i(x_k)\leq P_i(x_k) Vi(xk)Pi(xk)

Theorem1给出在迭代性能指标函数和迭代控制策略下,满足假设,存在 θ \theta θ使迭代性能指标函数 V i ( x k ) V_i(x_k) Vi(xk)是单调不增。证明数学归纳法,在新性能指标下,证明 V 1 ( x k ) ≤ P 1 ( x k ) V_1(x_k)\leq P_1(x_k) V1(xk)P1(xk),则 V 0 ( x k ) ≥ V 1 ( x k ) V_0(x_k)\geq V_1(x_k) V0(xk)V1(xk)。在i=l次迭代时,迭代性能指标同理归纳法可得。
Theorem2给出在假设下存在控制策略,满足Definition1和以下极限存在
在这里插入图片描述
则存在 θ \theta θ使得迭代值函数单调不增 V i + 1 ( x k ) ≤ V i ( x k ) V_{i+1}(x_k)\leq V_i(x_k) Vi+1(xk)Vi(xk)
在这里插入图片描述

Remark4指出迭代性能指标函数趋于最优性能指标和迭代控制策略趋于最优控制策略,如果在最优控制下,则
在这里插入图片描述
该极限不存在,也不存在 θ \theta θ满足 V i + 1 ( x k ) ≤ P i ( x k ) V_{i+1}(x_k)\leq P_i(x_k) Vi+1(xk)Pi(xk),则迭代性能指标函数不收敛到最优,算法无效。
Theorem3给出假设下,任意可稳定控制策略,使得
在这里插入图片描述
对最优 θ \theta θ值有
在这里插入图片描述
若存在有界的 θ \theta θ使满足迭代值函数单调不增,则值函数大于等于0,有Theorem4,迭代次数趋于无穷时,满足
在这里插入图片描述
证明给出任意正常数,代入迭代值函数单调性。

1:迭代ADP算法中,初始值函数任意选取, θ \theta θ也是任意选取,实际上只需选择较大的 θ \theta θ实现该算法并使迭代性能指标函数收敛。
2:不同初始值函数和 θ \theta θ,迭代性能指标函数最终会收敛到相同的值

Lemma3给出任意稳定控制下,以辅助性能指标函数,定义新性能指标函数,迭代次数趋于无穷时
在这里插入图片描述
Lemma4给出迭代值函数和辅助值函数下,存在有限正常数q满足
在这里插入图片描述
Theorem5给出迭代值函数和 θ \theta θ满足条件,如果系统状态是可控的,迭代值函数收敛到最优性能指标函数
在这里插入图片描述
同理在以上Theorem下迭代控制策略收敛到最优控制策略。
Theorem6给出任意可控制状态下,假设1-4成立和迭代性能指标函数、迭代控制策略下, θ \theta θ满足大于上界条件,则迭代控制策略使系统渐进稳定。证明先给出迭代性能指标函数是正定函数;再给出迭代控制策略是使系统渐近稳定的(由李雅普诺夫函数)

对反馈控制策略不仅需要使系统稳定,而且保证性能指标函数是有界的

Definition2给出可容许控制策略

Theorem7根据Theorem6给出性能指标函数为李雅普诺夫函数,证明在最优控制策略下系统渐进稳定,定义新的性能指标函数,且有界,则最优控制策略是可容许控制策略。

迭代 θ \theta θADP初始值函数为非零, θ Ψ ( x k ) ≠ 0 \theta\varPsi(x_k)\ne0 θΨ(xk)=0;普通值迭代(VI)算法,迭代值函数是单调不减收敛到最优,本文提出的迭代 θ \theta θADP的迭代值函数是单调不增收敛到最优;以往文献中的值迭代算法的迭代控制策略不满足稳定性,只能离线实现,而迭代 θ \theta θADP可证明迭代控制策略是稳定控制策略

Theorem8给出对任意稳定状态,最优性能指标函数属于正定非零函数集
在这里插入图片描述

Lemma5给出 Ψ ( x k ) \varPsi(x_k) Ψ(xk)是李雅普诺夫函数,正定非零函数属于该集合。本文中的初始函数选取 θ Ψ ( x k ) \theta\varPsi(x_k) θΨ(xk)为获得系统最优控制(不仅稳定系统,而且最小化性能指标函数)

选取正定非零函数 Ψ ( x k ) \varPsi(x_k) Ψ(xk)。a:使用效用函数 U ( x k , 0 ) U(x_k,0) U(xk,0)初始化迭代 t h e t a − A D P theta-ADP thetaADP算法,设立 V 0 ( x k ) = θ U ( x k , 0 ) V_0(x_k)=\theta U(x_k,0) V0(xk)=θU(xk,0),如果满足 V 1 ( x k ) ≤ V 0 ( x k ) V_1(x_k)\le V_0(x_k) V1(xk)V0(xk),则 θ U ( x k , 0 ) \theta U(x_k,0) θU(xk,0)属于正定非零函数集。
b:神经网络产生初始函数 Ψ ( x k ) \varPsi(x_k) Ψ(xk),初始化权重,任意给定正定函数 G ( x k ) > 0 G(x_k)>0 G(xk)>0,训练评价网络
在这里插入图片描述
评价网络收敛, Ψ ( x k ) = Ψ ^ ( x k ) \Psi(x_k)=\hat{\Psi}(x_k) Ψ(xk)=Ψ^(xk),确定初始迭代性能指标函数

相比于策略迭代(PI)算法(需要初始可容许控制序列),本文仅需要任意初始函数(效用函数);策略迭代下每次更新需要求解广义HJB方程更新迭代控制策略。

神经网络需要大量状态信息近似迭代控制策略和迭代性能指标函数。
三层前向网络
在这里插入图片描述
评价网络近似迭代性能指标函数,梯度下降法更新权重
在这里插入图片描述
动作网络近似迭代控制策略,同样梯度下降法
在这里插入图片描述
Theorem9给出目标性能指标函数和目标迭代控制策略,若给定评价网络和动作网络,学习率足够小,评价网络和动作网络权重渐进收敛到最优

选择较小的值初始化神经网络权重或减小学习率以获得全局近似最优值
展望:神经网络近似误差需要讨论,本文迭代性能指标函数收敛性和系统稳定性可能不保证

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值