Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis,2018 ,Qinglai Wei, Member, IEEE, Frank L. Lewis, Life Fellow, IEEE, Derong Liu, Fellow, IEEE, Ruizhuo Song, Member, IEEE, and Hanquan Lin
分析离散时间的局部值函数ADP算法,初始任意半正定值函数,利用状态依赖学习函数,第一次将迭代值函数和迭代扩展策略更新为状态空间中的子集,而不是整个状态空间,有效减轻计算。提出新的收敛性分析方法,证明在一定约束条件下,迭代值函数收敛到最优。给出局部值迭代ADP算法的单调性,在初值函数和学习率函数下,迭代值函数能单调收敛到最优。
以往文章中值迭代和控制策略迭代是在整个状态空间下更新,被称为global iterative ADP algorithms。实际应用中,系统数据难以在整个状态空间下迭代。迭代值函数和迭代控制策略通常为非线性近似结构,需要大量数据。传统全局值迭代算法是局部值迭代算法的特殊情况。在不同初始条件下,迭代值函数为单调不增、单调不减和无单调性。
初始任意半正定函数,使值函数
V
0
(
x
k
)
=
Ψ
V_0(x_k)=\varPsi
V0(xk)=Ψ,得到初始的局部迭代控制策略为
同理局部迭代值函数更新为
定义全局迭代值函数
而传统的全局值迭代ADP算法中,学习率函数
α
=
1
\alpha=1
α=1,整个状态空间的状态数据需要更新迭代值函数和迭代控制策略。
Lemma1给出迭代值函数和迭代控制策略下,迭代值函数正定性和半正定条件。
Theorem1给出迭代值函数和迭代控制策略下,学习率函数,最终迭代值函数收敛到最优性能指标函数。
每次迭代在系统状态在状态空间的一个子集下,得到状态空间子集下的状态数据。
Theorem2给出存在两个学习率函数,
迭代控制策略学习率函数2最小收敛率大于学习率函数1。
Theorem3给出迭代值函数和迭代控制策略下,学习率函数满足
0
<
α
0
(
x
k
)
≤
1
0<\alpha_0(x_k)\leq1
0<α0(xk)≤1,如果
V
1
(
x
k
)
≤
V
0
(
x
k
)
V_1(x_k)\leq V_0(x_k)
V1(xk)≤V0(xk),则迭代值函数满足单调不增。证明是通过假设新的迭代值函数,数学归纳法得到值函数的单调性。
如果学习率函数为0,则Theorem3可能不成立,即不满足单调性
Corollary1给出在迭代值函数和迭代控制策略下,学习率满足条件,对状态空间子集,迭代值函数满足单调不增。证明数学归纳法
Theorem4给出在迭代值函数和迭代控制策略下,任意可容许控制策略下,初始值函数下,学习率满足条件,则迭代值函数是单调不增的。
Theorem5给出在迭代值函数和迭代控制策略下,学习率满足条件,
V
1
(
x
k
)
≥
V
0
(
x
k
)
V_1(x_k)\geq V_0(x_k)
V1(xk)≥V0(xk),有迭代值函数是单调不减的。
同理Corollary2给出在迭代值函数和迭代控制策略下,初始值函数为0且学习率满足条件时,对状态空间子集,迭代值函数满足单调不减
Corollary3给出在迭代值函数和迭代控制策略下,学习率满足条件,如果迭代值函数单调不增收敛到最优,迭代值函数满足
V
i
(
x
k
)
≥
J
∗
(
x
k
)
V_i(x_k)\geq J^*(x_k)
Vi(xk)≥J∗(xk)
Corollary4给出在迭代值函数和迭代控制策略下,学习率满足条件,如果迭代值函数满足
V
1
(
x
k
)
≥
V
0
(
x
k
)
V_1(x_k)\geq V_0(x_k)
V1(xk)≥V0(xk),则迭代值函数满足
V
i
(
x
k
)
≤
J
∗
(
x
k
)
V_i(x_k)\leq J^*(x_k)
Vi(xk)≤J∗(xk)
为保证算法收敛性,给出算法终止收敛的条件。
Lemma2给出在迭代值函数和迭代控制策略下,在状态空间子集下迭代值函数是正定函数。
当初始值函数大于0,迭代值函数大于0,则迭代值函数可近似最优性能指标函数,而初始值函数大于等于0,则提出的算法不能输出一个正定函数。定义一个参数表示最小迭代次数的条件。
Theorem6给出在迭代值函数和迭代控制策略下,迭代次数大于最小迭代次数时,迭代值函数满足收敛条件,则迭代值函数收敛到最优。证明首先需要迭代值函数满足HJB方程,迭代控制策略满足使性能指标最小。在任意初始可容许策略下,定义辅助值函数。迭代值函数小于等于辅助值函数。可容许控制策略下,迭代值函数满足有界,最后迭代值函数等价于最优性能指标函数。