Parallel Control for Optimal Tracking via Adaptive Dynamic Programming ,2020,Jingwei Lu, Qinglai Wei, Senior Member, IEEE, and Fei-Yue Wang, Fellow, IEEE
对连续非线性系统求解最优平行控制,与现有的最优状态反馈控制不同,最优平行控制的控制输入被引入到反馈系统中。
但由于反馈系统中控制输入的引入,最优状态反馈控制方法不能直接应用,则提出增广系统和增广性能指标函数。状态反馈系统的李雅普诺夫函数
V
e
V_e
Ve,增广系统李雅普诺夫函数
V
p
(
e
,
u
e
)
V_p(e,u_e)
Vp(e,ue)。
因此一般非线性系统转化为仿射非线性系统,分析最优平行控制和最优反馈控制的不同。ADP方法使用评价网络在线近似值函数。李雅普诺夫理论分析闭环系统稳定性,跟踪误差和神经网络权重误差是一致最终有界(UUB),最优平行控制保证在参考信号有限跳跃不连续下控制输入的连续性。
有些文章提出可利用李雅普诺夫理论在不需要评价和动作网络顺序更新下在线求解HJB方程。
对非仿射非线性系统采用ADP法在线求解的难点在于:a不能直接利用最优控制的一阶必要条件得到期望的控制输入。b不可微或不连续参考信号跟踪控制的问题是误差动力学难以建立。
平行控制的主要思想将实际问题扩展到虚拟空间,然后通过虚拟空间交互解决控制问题。ACP方法实现平行智能,包括人工系统、计算实验与平行执行。
问题描述给出最优状态反馈跟踪控制的性能指标函数, u e = K ( e ) u_e=K(e) ue=K(e),一般误差系统为 e ˙ = f e ( e , u e ) \dot{e}=f_e(e,u_e) e˙=fe(e,ue)
最优平行跟踪控制的性能指标,
u
˙
e
=
g
e
(
e
,
u
e
)
\dot{u}_e=g_e\left( e,u_e \right)
u˙e=ge(e,ue),增广误差系统为
s
˙
=
f
s
(
s
)
+
g
s
v
s
\dot{s}=f_s(s)+g_sv_s
s˙=fs(s)+gsvs
Theorem1给出在Assumption和至少存在一个可微的u,一般误差系统和增广误差系统之间全局渐进稳定点的关系。
在给出最优状态反馈控制和最优平行控制的值函数形式后,Corollary1给出这两个系统下,权重矩阵和初始控制输入,不同系统下可容许控制的最优值函数的不等式关系;最优值函数的逼近关系;最优控制的逼近关系
由权矩阵特征值减小,平行控制范数减小,证明在增广性能指标函数下最优平行控制视为在传统性能指标函数下次最优状态反馈控制。
离线ADP
目标以求得系统最优控制的导数。对没有具体方程的系统,求解HJB方程的困难为设计前馈控制输入
在线ADP
评价网络以近似最优平行值函数,以最小化评价网络权重向量。Assumption2给出调整权重的公式以满足系统稳定,且不需要初始可容许控制输入。求得的最优权重以获得最优控制的导数。
Definition1给出UUB的定义。Assumption3给出(1)评价网络权重向量有界;(2)评价网络的近似误差和其梯度在一个紧集上有界;(3)最优闭环动力学是基于系统状态函数有界。
Theorem2给出在一般非线性系统下,平行控制输入和调整规则下,Assumption成立时,跟踪误差和评价网络权重的近似误差是一致最终有界(UUB)
Remark6指出虚拟变量
e
u
e_u
eu引入构造增广误差系统,但在求最优平行控制时,不增加实际测量
展望
在具有跳跃不连续的最优状态反馈控制中,系统的稳定性理论可以保证。但要求控制输入能在跳跃不连续处进行阶跃变化,而这在执行器上很难实现
仿真
比较平行控制器和状态反馈控制器的状态轨迹和控制输入轨迹
引入RD相关差分讨论不同权重下最优状态反馈控制器和最优平行控制器