Generalized value iteration for discounted optimal control with stability analysis✩, 2021 Mingming Ha , Ding Wang ,∗, Derong Liu
对离散时间非线性系统采用具有折扣因子的广义值迭代算法求解最优控制。同样其初始值函数为正定的。给出折扣因子下被控系统能够渐进稳定的条件。不需要初始的控制策略是可容许的,在某些条件下,当前迭代过程中的控制策略使系统稳定,则在后续的迭代中控制策略也能使系统稳定。文章主要提出评估迭代控制策略是否可使系统稳定的方法,分析GVI算法的单调性和稳定性。
GVI算法迭代步骤
根据W. Tang, P. Daoutidis, Distributed adaptive dynamic programming for data-driven optimal control, Systems Control Lett. 120 (2018) 36–43.文章中其VI算法更新值函数和控制策略在局部的状态空间中而不是整个状态空间。
Lemma1给出初始值函数与第一次迭代值函数
V
(
0
)
(
X
k
)
和
V
(
1
)
(
X
k
)
V^{(0)}(X_k) 和 V^{(1)}(X_k)
V(0)(Xk)和V(1)(Xk)的比较情况,则影响迭代值函数的单调性。
Theorem1给出可容许控制策略下,使得带折扣因子的迭代值函数在迭代次数无穷时收敛。
Theorem2给出
V
(
0
)
(
X
k
)
≤
V
(
1
)
(
X
k
)
V^{(0)}(X_k) \le V^{(1)}(X_k)
V(0)(Xk)≤V(1)(Xk)和折扣因子的条件使得迭代值函数是一个待选李雅普诺夫函数且迭代控制使闭环系统渐进稳定。当满足
V
(
0
)
(
X
k
)
≤
V
(
1
)
(
X
k
)
V^{(0)}(X_k) \le V^{(1)}(X_k)
V(0)(Xk)≤V(1)(Xk)时,则不需要折扣因子在初始迭代中满足上述不等式条件。
Theorem3给出折扣因子迭代使与效用函数和值函数的关系,使得折扣因子也能收敛。
Theorem4给出假定辅助的折扣因子,使得在某些条件下迭代值函数为待选李雅普诺夫函数且迭代控制策略下系统渐进稳定。该辅助折扣因子迭代后也可收敛。
Theorem5给出在效用函数和迭代值函数不等式条件下,折扣因子大于迭代辅助折扣因子,迭代控制策略使得闭环系统是渐进稳定的。
Algorithm1需要满足,1:折扣因子大小,使存在一个迭代次数,在后续迭代中保证迭代控制策略能使系统稳定;2:选择相应的正定权矩阵保证
V
(
0
)
(
X
k
)
≥
V
(
1
)
(
X
k
)
V^(0)(X_k) ≥ V^(1)(X_k)
V(0)(Xk)≥V(1)(Xk);3:折扣因子在迭代过程中收敛到最优。