Optimal control for discrete-time affine non-linear systems using general value iteration. IET Control Theory & Applications 6, 2725–2736 (2012).Liu, D. & Li, H.
新的一种基于广义值迭代的ADP方法,对具有连续状态和控制空间的离散仿射非线性系统求解近似最优控制。初始值函数不同于传统的, 给出新的值函数收敛性和分析收敛速度。考虑神经网络近似误差情况下,给出基于误差界限的条件,估计出最优值函数和近似值函数之间的误差。三层神经网络采用LM算法训练,以逼近未知系统、值函数和控制策略。
对线性二次型整定问题得到黎卡提方程,以求解最优控制;而对非线性最优控制问题的代价函数不能得到,因此通过求解离散时间的HJB方程采用广义VI算法。
与Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof ,2008 Asma Al-Tamimi; Frank L. Lewis; Murad Abu-Khalaf IEEE Transactions on Systems 都针对仿射非线性系统,该篇采用一般的VI算法,假设初始值函数
V
0
=
0
V_0=0
V0=0 ,而本篇文章中的VI算法的初始值函数为
V
0
(
x
k
)
=
x
k
T
P
0
x
k
V_0\left( x_k \right) =x_{k}^{T}P_0x_k
V0(xk)=xkTP0xk
该迭代ADP的VI算法,不需要初始的稳定控制器。值函数和控制迭代直到收敛到最优。
Theorem1给出值函数的单调性,证明通过归纳假设法。Theorem2给出收敛性分析,且其中参数的大小与收敛的速度有关,上界趋近于下界,收敛到最优值。Theorem3给出一定条件下值函数为李雅普诺夫函数且控制渐进稳定。Theorem4给出近似值函数的有界性,以及讨论近似误差的存在与减小。
采用HDP算法结构
缺陷不足,必须在有限迭代次数下,找到稳定的有效控制策略,稳定系统。即需要讨论VI算法的控制策略的可容许性。