Neural network approach to continuous-time direct adaptive optimal control for partially unknown nonlinear systems ,2009 Draguna Vrabie ∗, Frank Lewis Neural Networks 22 (2009) 237–246
非线性连续时间系统,提出在无限时域下在线求最优控制,在未知系统内部动力学知识情况下该算法收敛到最优控制解。根据策略迭代PI法,使用动作评价(Actor-critic)网络参数化控制策略和系统性能指标。以上两层神经网络近似最优控制和最优代价函数,两个神经网络不能完美表示非线性控制策略和值函数。结果为混合控制结构:一个连续时间控制器和监督自适应结构,该结构从被控对象采集的数据和连续时间下的性能动力学进行实现。
最小值原理或HJB的求解最优控制作为必要条件,但是需要完整的动力学模型,非线性HJB不易得到解析解。另一种方法研究具有离散空间和动作空间的马尔可夫系统的最优控制策略。
非线性系统中建模和识别过程需要耗费许多时间迭代,在迭代每个步骤中进行模型设计、参数识别和模型验证。本文提出Actor-Critic神经网络结构,连续时间下,在线求解非线性系统的最优控制问题,而不使用系统的内部动力学。PI方法,给定初始可容许策略保证迭代控制策略能使控制系统稳定,策略评估和策略提升,进行评估其值函数,进而得到新的控制策略,但在过去的文献中,所采用的PI算法都需要完整的动力学模型。
根据Adaptive optimal control algorithm for continuoustime nonlinear systems based on policy iteration. 提出的公式,这种新的形式允许连续时间操作控制器在线适应(即学习)得到最优状态反馈控制策略,而不需要系统内部动力学(关于输入到状态动态的知识仍然是需要的,但从系统辨识的观点来看,这些知识相对更容易获得)。为上述文章进行扩展,基于函数逼近器算法提供收敛性证明,同时考虑了Actor-Critic结构与控制函数和成本函数之间存在的逼近误差。
策略迭代算法
PI算法收敛性
神经网络近似代价函数以及残差的表示
加权残差法,最小二乘形式的残差,调整近似值函数权重参数最小化
根据Lebesgue内积分
给出四点条件,最优控制规定下的标准
自适应控制器,由值函数V(t)组成,提供动态储存,使得提取与策略相关的代价信息
在线学习算法
仿真:Integral reinforcement learning for partially unknown CT systems. 检验积分强化学习在求解部分未知连续时间系统的应用