Generalized value iteration for discounted optimal control with stability analysis

Generalized value iteration for discounted optimal control with stability analysis✩, 2021 Mingming Ha , Ding Wang ,∗, Derong Liu

对离散时间非线性系统采用具有折扣因子的广义值迭代算法求解最优控制。同样其初始值函数为正定的。给出折扣因子下被控系统能够渐进稳定的条件。不需要初始的控制策略是可容许的,在某些条件下,当前迭代过程中的控制策略使系统稳定,则在后续的迭代中控制策略也能使系统稳定。文章主要提出评估迭代控制策略是否可使系统稳定的方法,分析GVI算法的单调性和稳定性。
GVI算法迭代步骤
在这里插入图片描述
根据W. Tang, P. Daoutidis, Distributed adaptive dynamic programming for data-driven optimal control, Systems Control Lett. 120 (2018) 36–43.文章中其VI算法更新值函数和控制策略在局部的状态空间中而不是整个状态空间。
Lemma1给出初始值函数与第一次迭代值函数 V ( 0 ) ( X k ) 和 V ( 1 ) ( X k ) V^{(0)}(X_k) 和 V^{(1)}(X_k) V(0)(Xk)V(1)(Xk)的比较情况,则影响迭代值函数的单调性。
Theorem1给出可容许控制策略下,使得带折扣因子的迭代值函数在迭代次数无穷时收敛。
Theorem2给出 V ( 0 ) ( X k ) ≤ V ( 1 ) ( X k ) V^{(0)}(X_k) \le V^{(1)}(X_k) V(0)(Xk)V(1)(Xk)和折扣因子的条件使得迭代值函数是一个待选李雅普诺夫函数且迭代控制使闭环系统渐进稳定。当满足 V ( 0 ) ( X k ) ≤ V ( 1 ) ( X k ) V^{(0)}(X_k) \le V^{(1)}(X_k) V(0)(Xk)V(1)(Xk)时,则不需要折扣因子在初始迭代中满足上述不等式条件。
Theorem3给出折扣因子迭代使与效用函数和值函数的关系,使得折扣因子也能收敛。
Theorem4给出假定辅助的折扣因子,使得在某些条件下迭代值函数为待选李雅普诺夫函数且迭代控制策略下系统渐进稳定。该辅助折扣因子迭代后也可收敛。
Theorem5给出在效用函数和迭代值函数不等式条件下,折扣因子大于迭代辅助折扣因子,迭代控制策略使得闭环系统是渐进稳定的。
在这里插入图片描述
Algorithm1需要满足,1:折扣因子大小,使存在一个迭代次数,在后续迭代中保证迭代控制策略能使系统稳定;2:选择相应的正定权矩阵保证 V ( 0 ) ( X k ) ≥ V ( 1 ) ( X k ) V^(0)(X_k) ≥ V^(1)(X_k) V(0)(Xk)V(1)(Xk);3:折扣因子在迭代过程中收敛到最优。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值