Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis

Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis,2018 ,Qinglai Wei, Member, IEEE, Frank L. Lewis, Life Fellow, IEEE, Derong Liu, Fellow, IEEE, Ruizhuo Song, Member, IEEE, and Hanquan Lin

分析离散时间的局部值函数ADP算法,初始任意半正定值函数,利用状态依赖学习函数,第一次将迭代值函数和迭代扩展策略更新为状态空间中的子集,而不是整个状态空间,有效减轻计算。提出新的收敛性分析方法,证明在一定约束条件下,迭代值函数收敛到最优。给出局部值迭代ADP算法的单调性,在初值函数和学习率函数下,迭代值函数能单调收敛到最优。

以往文章中值迭代和控制策略迭代是在整个状态空间下更新,被称为global iterative ADP algorithms。实际应用中,系统数据难以在整个状态空间下迭代。迭代值函数和迭代控制策略通常为非线性近似结构,需要大量数据。传统全局值迭代算法是局部值迭代算法的特殊情况。在不同初始条件下,迭代值函数为单调不增、单调不减和无单调性。
在这里插入图片描述
初始任意半正定函数,使值函数 V 0 ( x k ) = Ψ V_0(x_k)=\varPsi V0(xk)=Ψ,得到初始的局部迭代控制策略为
在这里插入图片描述
同理局部迭代值函数更新为
在这里插入图片描述
定义全局迭代值函数
在这里插入图片描述
而传统的全局值迭代ADP算法中,学习率函数 α = 1 \alpha=1 α=1,整个状态空间的状态数据需要更新迭代值函数和迭代控制策略。
Lemma1给出迭代值函数和迭代控制策略下,迭代值函数正定性和半正定条件。
Theorem1给出迭代值函数和迭代控制策略下,学习率函数,最终迭代值函数收敛到最优性能指标函数。
在这里插入图片描述
每次迭代在系统状态在状态空间的一个子集下,得到状态空间子集下的状态数据。
Theorem2给出存在两个学习率函数,
在这里插入图片描述
迭代控制策略学习率函数2最小收敛率大于学习率函数1。
Theorem3给出迭代值函数和迭代控制策略下,学习率函数满足 0 < α 0 ( x k ) ≤ 1 0<\alpha_0(x_k)\leq1 0<α0(xk)1,如果 V 1 ( x k ) ≤ V 0 ( x k ) V_1(x_k)\leq V_0(x_k) V1(xk)V0(xk),则迭代值函数满足单调不增。证明是通过假设新的迭代值函数,数学归纳法得到值函数的单调性。
如果学习率函数为0,则Theorem3可能不成立,即不满足单调性
Corollary1给出在迭代值函数和迭代控制策略下,学习率满足条件,对状态空间子集,迭代值函数满足单调不增。证明数学归纳法
Theorem4给出在迭代值函数和迭代控制策略下,任意可容许控制策略下,初始值函数下,学习率满足条件,则迭代值函数是单调不增的。
Theorem5给出在迭代值函数和迭代控制策略下,学习率满足条件, V 1 ( x k ) ≥ V 0 ( x k ) V_1(x_k)\geq V_0(x_k) V1(xk)V0(xk),有迭代值函数是单调不减的。
同理Corollary2给出在迭代值函数和迭代控制策略下,初始值函数为0且学习率满足条件时,对状态空间子集,迭代值函数满足单调不减
Corollary3给出在迭代值函数和迭代控制策略下,学习率满足条件,如果迭代值函数单调不增收敛到最优,迭代值函数满足 V i ( x k ) ≥ J ∗ ( x k ) V_i(x_k)\geq J^*(x_k) Vi(xk)J(xk)
Corollary4给出在迭代值函数和迭代控制策略下,学习率满足条件,如果迭代值函数满足 V 1 ( x k ) ≥ V 0 ( x k ) V_1(x_k)\geq V_0(x_k) V1(xk)V0(xk),则迭代值函数满足 V i ( x k ) ≤ J ∗ ( x k ) V_i(x_k)\leq J^*(x_k) Vi(xk)J(xk)
为保证算法收敛性,给出算法终止收敛的条件。
Lemma2给出在迭代值函数和迭代控制策略下,在状态空间子集下迭代值函数是正定函数。
当初始值函数大于0,迭代值函数大于0,则迭代值函数可近似最优性能指标函数,而初始值函数大于等于0,则提出的算法不能输出一个正定函数。定义一个参数表示最小迭代次数的条件。
Theorem6给出在迭代值函数和迭代控制策略下,迭代次数大于最小迭代次数时,迭代值函数满足收敛条件,则迭代值函数收敛到最优。证明首先需要迭代值函数满足HJB方程,迭代控制策略满足使性能指标最小。在任意初始可容许策略下,定义辅助值函数。迭代值函数小于等于辅助值函数。可容许控制策略下,迭代值函数满足有界,最后迭代值函数等价于最优性能指标函数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值