A Novel Iterative -Adaptive Dynamic Programming for Discrete-Time Nonlinear Systems ,2014,Qinglai Wei, Member, IEEE, and Derong Liu, Fellow, IEEE
对无限时域离散时间非线性确定性系统提出迭代
θ
\theta
θADP技术求解最优控制问题。该算法避免策略迭代PI算法需要初始可容许控制的条件。提出新的证明方法由迭代
θ
\theta
θADP算法得到的迭代控制能稳定非线性系统,即迭代
θ
\theta
θADP算法对在线或离线都是可行的。性能指标函数收敛性分析保证迭代性能指标函数将单调收敛到最优值。神经网络近似性能指标函数并计算最优控制策略。
核心思想为构建初始正定价值函数集合满足以下,选择不同的
θ
\theta
θ值执行值函数初始化
Definition1给出初始任意正定函数
则初始性能指标函数
V
0
=
θ
Ψ
(
x
k
)
V_0=\theta\varPsi(x_k)
V0=θΨ(xk),
θ
\theta
θ为正常数,则得到初始迭代控制策略。迭代
θ
−
A
D
P
\theta-ADP
θ−ADP算法如下
标准的HJB方程求解得到的性能指标函数是唯一的,而以上迭代ADP在每次迭代下,性能指标函数都不相同。同理标准HJB方程求得最优控制策略,而以上迭代ADP每次迭代下,迭代控制策略都不相同。
Lemma1给出迭代ADP迭代性能指标函数和迭代控制策略,迭代值函数可表示为
最优值函数由迭代值函数替代,一般来说迭代值函数更新所得不是最优的。
Lemma2给出任意控制策略下定义辅助值函数
Λ
0
(
x
k
)
=
V
0
(
x
k
)
=
θ
Ψ
(
x
k
)
\begin{aligned}\Lambda_0(x_k)=V_0(x_k)=\theta\Psi(x_k)\end{aligned}
Λ0(xk)=V0(xk)=θΨ(xk),则
V
i
(
x
k
)
≤
Λ
i
(
x
k
)
.
\begin{aligned}V_i(x_k)\leq\Lambda_i(x_k).\end{aligned}
Vi(xk)≤Λi(xk).
Corollary1给出任意稳定控制策略下,定义新性能指标函数
P
0
(
x
k
)
=
V
0
(
x
k
)
=
θ
Ψ
(
x
k
)
\begin{aligned}P_0(x_k)=V_0(x_k)=\theta\Psi(x_k)\end{aligned}
P0(xk)=V0(xk)=θΨ(xk),则
V
i
(
x
k
)
≤
P
i
(
x
k
)
V_i(x_k)\leq P_i(x_k)
Vi(xk)≤Pi(xk)
Theorem1给出在迭代性能指标函数和迭代控制策略下,满足假设,存在
θ
\theta
θ使迭代性能指标函数
V
i
(
x
k
)
V_i(x_k)
Vi(xk)是单调不增。证明数学归纳法,在新性能指标下,证明
V
1
(
x
k
)
≤
P
1
(
x
k
)
V_1(x_k)\leq P_1(x_k)
V1(xk)≤P1(xk),则
V
0
(
x
k
)
≥
V
1
(
x
k
)
V_0(x_k)\geq V_1(x_k)
V0(xk)≥V1(xk)。在i=l次迭代时,迭代性能指标同理归纳法可得。
Theorem2给出在假设下存在控制策略,满足Definition1和以下极限存在
则存在
θ
\theta
θ使得迭代值函数单调不增
V
i
+
1
(
x
k
)
≤
V
i
(
x
k
)
V_{i+1}(x_k)\leq V_i(x_k)
Vi+1(xk)≤Vi(xk)。
Remark4指出迭代性能指标函数趋于最优性能指标和迭代控制策略趋于最优控制策略,如果在最优控制下,则
该极限不存在,也不存在
θ
\theta
θ满足
V
i
+
1
(
x
k
)
≤
P
i
(
x
k
)
V_{i+1}(x_k)\leq P_i(x_k)
Vi+1(xk)≤Pi(xk),则迭代性能指标函数不收敛到最优,算法无效。
Theorem3给出假设下,任意可稳定控制策略,使得
对最优
θ
\theta
θ值有
若存在有界的
θ
\theta
θ使满足迭代值函数单调不增,则值函数大于等于0,有Theorem4,迭代次数趋于无穷时,满足
证明给出任意正常数,代入迭代值函数单调性。
1:迭代ADP算法中,初始值函数任意选取,
θ
\theta
θ也是任意选取,实际上只需选择较大的
θ
\theta
θ实现该算法并使迭代性能指标函数收敛。
2:不同初始值函数和
θ
\theta
θ,迭代性能指标函数最终会收敛到相同的值
Lemma3给出任意稳定控制下,以辅助性能指标函数,定义新性能指标函数,迭代次数趋于无穷时
Lemma4给出迭代值函数和辅助值函数下,存在有限正常数q满足
Theorem5给出迭代值函数和
θ
\theta
θ满足条件,如果系统状态是可控的,迭代值函数收敛到最优性能指标函数
同理在以上Theorem下迭代控制策略收敛到最优控制策略。
Theorem6给出任意可控制状态下,假设1-4成立和迭代性能指标函数、迭代控制策略下,
θ
\theta
θ满足大于上界条件,则迭代控制策略使系统渐进稳定。证明先给出迭代性能指标函数是正定函数;再给出迭代控制策略是使系统渐近稳定的(由李雅普诺夫函数)
对反馈控制策略不仅需要使系统稳定,而且保证性能指标函数是有界的
Definition2给出可容许控制策略
Theorem7根据Theorem6给出性能指标函数为李雅普诺夫函数,证明在最优控制策略下系统渐进稳定,定义新的性能指标函数,且有界,则最优控制策略是可容许控制策略。
迭代 θ \theta θADP初始值函数为非零, θ Ψ ( x k ) ≠ 0 \theta\varPsi(x_k)\ne0 θΨ(xk)=0;普通值迭代(VI)算法,迭代值函数是单调不减收敛到最优,本文提出的迭代 θ \theta θADP的迭代值函数是单调不增收敛到最优;以往文献中的值迭代算法的迭代控制策略不满足稳定性,只能离线实现,而迭代 θ \theta θADP可证明迭代控制策略是稳定控制策略
Theorem8给出对任意稳定状态,最优性能指标函数属于正定非零函数集
Lemma5给出 Ψ ( x k ) \varPsi(x_k) Ψ(xk)是李雅普诺夫函数,正定非零函数属于该集合。本文中的初始函数选取 θ Ψ ( x k ) \theta\varPsi(x_k) θΨ(xk)为获得系统最优控制(不仅稳定系统,而且最小化性能指标函数)
选取正定非零函数
Ψ
(
x
k
)
\varPsi(x_k)
Ψ(xk)。a:使用效用函数
U
(
x
k
,
0
)
U(x_k,0)
U(xk,0)初始化迭代
t
h
e
t
a
−
A
D
P
theta-ADP
theta−ADP算法,设立
V
0
(
x
k
)
=
θ
U
(
x
k
,
0
)
V_0(x_k)=\theta U(x_k,0)
V0(xk)=θU(xk,0),如果满足
V
1
(
x
k
)
≤
V
0
(
x
k
)
V_1(x_k)\le V_0(x_k)
V1(xk)≤V0(xk),则
θ
U
(
x
k
,
0
)
\theta U(x_k,0)
θU(xk,0)属于正定非零函数集。
b:神经网络产生初始函数
Ψ
(
x
k
)
\varPsi(x_k)
Ψ(xk),初始化权重,任意给定正定函数
G
(
x
k
)
>
0
G(x_k)>0
G(xk)>0,训练评价网络
评价网络收敛,
Ψ
(
x
k
)
=
Ψ
^
(
x
k
)
\Psi(x_k)=\hat{\Psi}(x_k)
Ψ(xk)=Ψ^(xk),确定初始迭代性能指标函数
相比于策略迭代(PI)算法(需要初始可容许控制序列),本文仅需要任意初始函数(效用函数);策略迭代下每次更新需要求解广义HJB方程更新迭代控制策略。
神经网络需要大量状态信息近似迭代控制策略和迭代性能指标函数。
三层前向网络
评价网络近似迭代性能指标函数,梯度下降法更新权重
动作网络近似迭代控制策略,同样梯度下降法
Theorem9给出目标性能指标函数和目标迭代控制策略,若给定评价网络和动作网络,学习率足够小,评价网络和动作网络权重渐进收敛到最优
选择较小的值初始化神经网络权重或减小学习率以获得全局近似最优值
展望:神经网络近似误差需要讨论,本文迭代性能指标函数收敛性和系统稳定性可能不保证