Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis

LucienLSA

已于 2024-03-21 20:18:09 修改

阅读量135

点赞数 1

文章标签：笔记学习

于 2024-03-20 21:29:30 首次发布

本文链接：https://blog.csdn.net/darlinglsa/article/details/136889322

版权

Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis，2018 ，Qinglai Wei, Member, IEEE, Frank L. Lewis, Life Fellow, IEEE, Derong Liu, Fellow, IEEE, Ruizhuo Song, Member, IEEE, and Hanquan Lin

分析离散时间的局部值函数ADP算法，初始任意半正定值函数，利用状态依赖学习函数，第一次将迭代值函数和迭代扩展策略更新为状态空间中的子集，而不是整个状态空间，有效减轻计算。提出新的收敛性分析方法，证明在一定约束条件下，迭代值函数收敛到最优。给出局部值迭代ADP算法的单调性，在初值函数和学习率函数下，迭代值函数能单调收敛到最优。

以往文章中值迭代和控制策略迭代是在整个状态空间下更新，被称为global iterative ADP algorithms。实际应用中，系统数据难以在整个状态空间下迭代。迭代值函数和迭代控制策略通常为非线性近似结构，需要大量数据。传统全局值迭代算法是局部值迭代算法的特殊情况。在不同初始条件下，迭代值函数为单调不增、单调不减和无单调性。
在这里插入图片描述
初始任意半正定函数，使值函数 $V_0(x_k)=\varPsi$ ，得到初始的局部迭代控制策略为

同理局部迭代值函数更新为

定义全局迭代值函数

而传统的全局值迭代ADP算法中，学习率函数 $\alpha=1$ ，整个状态空间的状态数据需要更新迭代值函数和迭代控制策略。
Lemma1给出迭代值函数和迭代控制策略下，迭代值函数正定性和半正定条件。
Theorem1给出迭代值函数和迭代控制策略下，学习率函数，最终迭代值函数收敛到最优性能指标函数。
在这里插入图片描述
每次迭代在系统状态在状态空间的一个子集下，得到状态空间子集下的状态数据。
Theorem2给出存在两个学习率函数，

迭代控制策略学习率函数2最小收敛率大于学习率函数1。
Theorem3给出迭代值函数和迭代控制策略下，学习率函数满足 $0<\alpha_0(x_k)\leq1$ ，如果 $V_1(x_k)\leq V_0(x_k)$ ，则迭代值函数满足单调不增。证明是通过假设新的迭代值函数，数学归纳法得到值函数的单调性。
如果学习率函数为0，则Theorem3可能不成立，即不满足单调性
Corollary1给出在迭代值函数和迭代控制策略下，学习率满足条件，对状态空间子集，迭代值函数满足单调不增。证明数学归纳法
Theorem4给出在迭代值函数和迭代控制策略下，任意可容许控制策略下，初始值函数下，学习率满足条件，则迭代值函数是单调不增的。
Theorem5给出在迭代值函数和迭代控制策略下，学习率满足条件， $V_1(x_k)\geq V_0(x_k)$ ，有迭代值函数是单调不减的。
同理Corollary2给出在迭代值函数和迭代控制策略下，初始值函数为0且学习率满足条件时，对状态空间子集，迭代值函数满足单调不减
Corollary3给出在迭代值函数和迭代控制策略下，学习率满足条件，如果迭代值函数单调不增收敛到最优，迭代值函数满足 $V_i(x_k)\geq J^*(x_k)$
Corollary4给出在迭代值函数和迭代控制策略下，学习率满足条件，如果迭代值函数满足 $V_1(x_k)\geq V_0(x_k)$ ，则迭代值函数满足 $V_i(x_k)\leq J^*(x_k)$
为保证算法收敛性，给出算法终止收敛的条件。
Lemma2给出在迭代值函数和迭代控制策略下，在状态空间子集下迭代值函数是正定函数。
当初始值函数大于0，迭代值函数大于0，则迭代值函数可近似最优性能指标函数，而初始值函数大于等于0，则提出的算法不能输出一个正定函数。定义一个参数表示最小迭代次数的条件。
Theorem6给出在迭代值函数和迭代控制策略下，迭代次数大于最小迭代次数时，迭代值函数满足收敛条件，则迭代值函数收敛到最优。证明首先需要迭代值函数满足HJB方程，迭代控制策略满足使性能指标最小。在任意初始可容许策略下，定义辅助值函数。迭代值函数小于等于辅助值函数。可容许控制策略下，迭代值函数满足有界，最后迭代值函数等价于最优性能指标函数。