Modified λ-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems,2024, Huaiyuan Jiang , Bin Zhou , Senior Member, IEEE, and Guang-Ren Duan , Fellow, IEEE
对离散时间线性系统的最优控制问题,重新考虑和重述了
λ
−
P
I
\lambda-PI
λ−PI算法。给出传统
λ
−
P
I
\lambda-PI
λ−PI新的特性,改进传统该算法证明其收敛性。基于现有算法,初始条件放宽。根据新的矩阵秩条件提出数据驱动的可行性。
λ
−
P
I
\lambda-PI
λ−PI平衡PI和VI算法,以off-policy针对LQR问题。改进
λ
−
P
I
\lambda-PI
λ−PI,增加修正回路,可保证迭代过程中迭代矩阵序列有界,使其与传统的PI和
λ
−
P
I
\lambda-PI
λ−PI相比,放宽了初始条件。即初始控制器不需要是可容许的。
选取
λ
\lambda
λ与算法收敛性分析的关系,给出初始条件选取方法。基于数据驱动和模型算法的等价性,以统一条件验证提出数据驱动算法的可行性。
传统
λ
−
P
I
\lambda-PI
λ−PI ADP算法,由于非线性难以求解DARE
Lemma1给出Schur Stable条件
使得序列
P
i
{P_i}
Pi更新为
则有以下特性
PI方法可等价于
operator的逆可能不存在,则迭代更新不可行
Lemma2给出在初始值函数
P
0
P_0
P0下
有如下特性
但是初始的
P
0
P_0
P0条件难以满足,对Lemma1中的operator增加bias parameter
对改进的
λ
−
P
I
\lambda-PI
λ−PI方法,operator
F
P
λ
\mathcal{F}_P^\lambda
FPλ是可逆的
定义
Lemma3给出
β
i
\beta_{i}
βi的单调性条件,当
λ
(
A
0
)
\sqrt{\lambda}(A_0)
λ(A0),则满足
F
P
λ
\mathcal{F}_P^\lambda
FPλ是可逆的
Theorem1 给出当Q>0,对序列 P i P_i Pi, λ ( A 0 ) \sqrt{\lambda}(A_0) λ(A0)Schur Stable,则序列 P i P_i Pi有界,收敛到DARE的正定解。
Lemma4 给出最优
λ
\lambda
λ满足函数时,序列
P
i
P_i
Pi的上界
Algorithm1给出DARE基于模型的
λ
−
P
I
\lambda-PI
λ−PI算法
Lemma5 对Algorithm1收敛性提出的条件
Theorem2 给出序列 P i P_i Pi为Algorithm1中,收敛到最优,DARE的解。
由于所提出算法控制器初始不需要稳定的,但其近似控制器可能会不稳定。这在传统的VI算法中很常见,引入参数
ε
{\mathbf{\varepsilon}}
ε,Corollary1
由Qlearning的data-driven,近似最优控制,不需要矩阵AB。由输入和状态数据的特定矩阵秩条件,可检验model-based和data-driven算法之间等价性。
Algorithm2给出对改进的 λ − P I \lambda-PI λ−PI算法data-driven实现,未知AB信息条件下