A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems✩,2021, Chun Li, Jinliang Ding, Frank L. Lewis, Tianyou Chai
对离散非线性系统的最优跟踪问题,提出新的值函数形式,以通过ADP算法消除跟踪误差。为避免求解参考控制输入,将控制输入引入控制跟踪误差中,忽略控制输入的二次型,使得最优控制策略仅与跟踪误差和参考跟踪轨迹有关。值函数的收敛性和有界性与折扣因子无关。基于提出的值迭代方法,在不考虑参考控制输入情况下推导出最优控制策略。根据VI和PI算法证明所得到控制策略的最优性,并推出迭代值函数的收敛性和单调性。采用神经网络和动作评价网络验证ADP算法有效性。
根据往年的文献,跟踪问题可转化为调节问题,但不易求解参考控制输入。可通过原系统和指令生成器组成增广系统,避免求解参考控制输入。当增广系统不可控,其边界与值函数的参数有关,则不能消除跟踪误差。
根据Actor–Critic-Based Optimal Tracking for Partially Unknown Nonlinear Discrete-Time Systems 2015提出的值函数进行改进。包含折扣因子
γ
\gamma
γ
以上的值函数形式在特殊情况下,跟踪误差不能被消除。因此对其改进值函数:
根据最优控制的必要条件得到最优控制的表达式,虽然不易直接计算,但是仍可作为控制策略的表达标准。
VI算法收敛性证明
Theorem1初始值函数(
V
0
(
e
k
,
x
k
~
)
=
0
V_0(e_k, \tilde{x_k})=0
V0(ek,xk~)=0)给出在Assumption与策略提升和值更新下,迭代值函数的单调性、收敛性和迭代策略的收敛性。证明方法以数学归纳和放缩为主,假设辅助函数
PI算法收敛性证明
Theorem2初始控制策略必须是可容许的(
π
0
(
e
k
,
x
k
~
)
π_0(e_k, \tilde{x_k})
π0(ek,xk~)),给出在Assumption与策略评估和策略提升下。内迭代值函数和外迭代值函数的单调性、控制策略和值函数的收敛性。
梯度下降法训练actor-critic和model网络。
动作网络得到迭代控制输入以实现策略提升,评价网络计算迭代值函数以实现策略评估
Algorithm1 VI算法,本文假设的初始值函数为0;Algorithm1 PI算法,初始控制策略是可容许的,给出需要一定的迭代得到可容许控制策略。