Modified λ-Policy Iteration Based ADP for Unknown Discrete-Time Linear Systems

Modified λ-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems,2024, Huaiyuan Jiang , Bin Zhou , Senior Member, IEEE, and Guang-Ren Duan , Fellow, IEEE

对离散时间线性系统的最优控制问题,重新考虑和重述了 λ − P I \lambda-PI λPI算法。给出传统 λ − P I \lambda-PI λPI新的特性,改进传统该算法证明其收敛性。基于现有算法,初始条件放宽。根据新的矩阵秩条件提出数据驱动的可行性。
λ − P I \lambda-PI λPI平衡PI和VI算法,以off-policy针对LQR问题。改进 λ − P I \lambda-PI λPI,增加修正回路,可保证迭代过程中迭代矩阵序列有界,使其与传统的PI和 λ − P I \lambda-PI λPI相比,放宽了初始条件。即初始控制器不需要是可容许的。
选取 λ \lambda λ与算法收敛性分析的关系,给出初始条件选取方法。基于数据驱动和模型算法的等价性,以统一条件验证提出数据驱动算法的可行性。

传统 λ − P I \lambda-PI λPI ADP算法,由于非线性难以求解DARE
在这里插入图片描述
Lemma1给出Schur Stable条件
在这里插入图片描述
使得序列 P i {P_i} Pi更新为
在这里插入图片描述
则有以下特性
在这里插入图片描述
PI方法可等价于
在这里插入图片描述
operator的逆可能不存在,则迭代更新不可行
Lemma2给出在初始值函数 P 0 P_0 P0
在这里插入图片描述
在这里插入图片描述
有如下特性
在这里插入图片描述
但是初始的 P 0 P_0 P0条件难以满足,对Lemma1中的operator增加bias parameter
在这里插入图片描述
对改进的 λ − P I \lambda-PI λPI方法,operator F P λ \mathcal{F}_P^\lambda FPλ是可逆的

定义
在这里插入图片描述
Lemma3给出 β i \beta_{i} βi的单调性条件,当 λ ( A 0 ) \sqrt{\lambda}(A_0) λ (A0),则满足 F P λ \mathcal{F}_P^\lambda FPλ是可逆的

Theorem1 给出当Q>0,对序列 P i P_i Pi λ ( A 0 ) \sqrt{\lambda}(A_0) λ (A0)Schur Stable,则序列 P i P_i Pi有界,收敛到DARE的正定解。

Lemma4 给出最优 λ \lambda λ满足函数时,序列 P i P_i Pi的上界
在这里插入图片描述
Algorithm1给出DARE基于模型的 λ − P I \lambda-PI λPI算法

Lemma5 对Algorithm1收敛性提出的条件
在这里插入图片描述

Theorem2 给出序列 P i P_i Pi为Algorithm1中,收敛到最优,DARE的解。

由于所提出算法控制器初始不需要稳定的,但其近似控制器可能会不稳定。这在传统的VI算法中很常见,引入参数 ε {\mathbf{\varepsilon}} ε,Corollary1
在这里插入图片描述

由Qlearning的data-driven,近似最优控制,不需要矩阵AB。由输入和状态数据的特定矩阵秩条件,可检验model-based和data-driven算法之间等价性。
在这里插入图片描述

Algorithm2给出对改进的 λ − P I \lambda-PI λPI算法data-driven实现,未知AB信息条件下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值