General value iteration based reinforcement learning for solving optimal tracking control problem of continuous–time affine nonlinear systems ,2017,Geyang Xiao, Huaguang Zhang , Yanhong Luo, Qiuxia Qu
对仿射非线性系统连续时间,采用广义值迭代法求解最优跟踪控制问题。提出假设放宽对初始可容许控制策略的限制条件。三种情况证明任意初始性能指标的收敛性。文章仿真以非线性弹簧质量阻尼器系统,采用神经网络分析文章内容有效性。
基于PI算法,初始可容许控制被认为是次最优控制,需要求解非线性偏微分方程。而VI算法不需要初始可容许控制,传统VI算法需要初始值函数为0。根据Q. Wei, D. Liu, Y. Xu, Neuro-optimal tracking control for a class of discretetime nonlinear systems via generalized value iteration adaptive dynamic programming approach是基于离散时间DT的广义VI方法解决OTCP问题。
Assumption1给出期望轨迹是有界的,且其动力学是locally Lipschitz function满足。Assumption2给出输入矩阵g(x)有界,且稳定状态控制由以下得出
稳态控制策略是固定的,且根据跟踪误差控制策略定义性能值函数。
因为期望轨迹是有界的,稳态状态控制一般非零,所以控制输入可能非零。尽管折扣因子能保证当跟踪误差和控制输入有界情况下,性能指标函数是有界,但跟踪误差的渐进稳定性不能保证。误差动力学系统表达式为
使以上值函数最小化。其误差动力学系统不仅与跟踪误差有关,还包括期望轨迹。构建增广系统动力学,将误差动力学和期望轨迹动力学结构。
以上(13)值函数为候选李雅普诺夫函数,对其微分,构造哈密顿函数。但满足最优值函数和最优跟踪误差控制时
Definition1给出可容许控制条件。广义值迭代算法方程。
Definition2给出控制的可积性。
Assumption4给出初始性能函数满足基于正常数最优值函数上下界;Assumption5给出基于正常数效用函数积分与最优值函数的上下界。
Theorem1给出在Assumption4迭代值函数的有界性,
α
<
1
\alpha<1
α<1。证明方法基于数学归纳
Theorem2给出在Assumption4,
α
\alpha
α。同Theorem1
Theorem3给出在Assumption4,
α
>
=
1
\alpha>=1
α>=1
Theorem4给出迭代值函数的收敛性,收敛到最优值函数。证明条件通过以上假定的正常数,广义VI算法初始任意半正定值函数,得到最优跟踪控制问题的解。
由于以上GVI算法是离线训练样本数据的迭代算法,使用在线方法求解最优跟踪控制问题需要PE条件。
三层BP神经网络,构造Actor-Critic网络,评价网络近似迭代值函数,动作网络近似迭代跟踪误差控制策略
Φ
(
ξ
)
=
W
φ
(
Y
ξ
+
b
)
+
ε
(
ξ
)
\Phi(\xi)=W\varphi(Y\xi+b)+\varepsilon(\xi)
Φ(ξ)=Wφ(Yξ+b)+ε(ξ)
评价网络
V
^
i
(
ξ
)
=
W
c
(
i
)
φ
(
Y
c
(
i
)
ξ
+
b
c
(
i
)
)
\hat{V}_i(\xi)=W_{c(i)}\varphi(Y_{c(i)}\xi+b_{c(i)})
V^i(ξ)=Wc(i)φ(Yc(i)ξ+bc(i))
动作网络
μ
^
i
(
ξ
)
=
W
μ
(
i
)
φ
(
Y
μ
(
i
)
ξ
+
b
μ
(
i
)
)
\hat{\mu}_i(\xi)=W_{\mu(i)}\varphi(Y_{\mu(i)}\xi+b_{\mu(i)})
μ^i(ξ)=Wμ(i)φ(Yμ(i)ξ+bμ(i))
误差函数构造
e
c
(
i
)
j
(
ξ
)
=
W
c
(
i
)
j
φ
(
Y
c
(
i
)
j
ξ
+
b
c
(
i
)
j
)
−
∫
t
t
+
Δ
t
r
(
ξ
(
τ
)
,
μ
^
i
−
1
(
τ
)
)
d
τ
−
V
^
i
−
1
(
ξ
μ
^
i
−
1
(
t
+
Δ
t
)
)
\begin{aligned}e_{c(i)}^j(\xi)&=W_{c(i)}^j\varphi(Y_{c(i)}^j\xi+b_{c(i)}^j)-\int_{t}^{t+\Delta t}r(\xi(\tau),\hat{\mu}_{i-1}(\tau))\mathrm{d}\tau\\&-\hat{V}_{i-1}(\xi^{\hat{\mu}_{i-1}}(t+\Delta t))\end{aligned}
ec(i)j(ξ)=Wc(i)jφ(Yc(i)jξ+bc(i)j)−∫tt+Δtr(ξ(τ),μ^i−1(τ))dτ−V^i−1(ξμ^i−1(t+Δt))
根据梯度下降法,构造评价网络最小二乘形式,定义其权重。定义动作网络的误差函数,同理权重。