Model-Free Optimal Tracking Control via Critic-Only Q-Learning

Model-Free Optimal Tracking Control via Critic-Only Q-Learning Biao Luo, Member, IEEE, 2016,Derong Liu, Fellow, IEEE, Tingwen Huang, and Ding Wang, Member, IEEE

对非仿射非线性离散时间系统,提出model-free最优跟踪控制问题。仅有评价网络的QLearning方法,根据真实系统数据学习最优跟踪控制,因此避免了求解HJB方程。Qlearning算法基于增广系统,仅使用一个神经网络近似Qfunction。考虑神经网络的近似误差证明了CoQL方法的收敛性。采用梯度下降法。CoQL是基于off-policy和仅有评价结构的方法。
为避免显式使用期望控制,利用期望参考轨迹的误差系统和指令生成器以获得增广系统,并且引入折扣因子,不需要内部动力学,采用在线策略迭代方法对线性或非线性连续系统实现最优跟踪轨迹控制 “H. Modares and F. L. Lewis, “Linear quadratic tracking control of partially-unknown continuous-time systems using reinforcement learning”,在具有输入限制的非线性离散系统“B. Kiumarsi and F. L. Lewis, “Actor–critic-based optimal tracking for partially unknown nonlinear discrete-time systems,”,在无完整系统模型,利用输入输出数据求解线性离散系统的最优跟踪控制问题”B. Kiumarsi, F. L. Lewis, M.-B. Naghibi-Sistani, and A. Karimpour, “Optimal tracking control of unknown discrete-time linear systems using input-output measured data,”。
model-free方法上如何收集数据是关键,off-policy允许任何控制策略生成数据,在执行其他控制策略时能够评估目标策略,从实际系统获取数据很有用,而on-policy则难以获得数据。on-policy方法则是根据目标控制策略产生系统数据,意味着学习的控制策略需要在收敛之前得到相应的系统数据。而且on-policy方法可能存在探索不充分的情况。
对非仿射非线性离散时间系统,定义指令生成器、跟踪误差和增广系统。由于model-free,f(x,u)和h®是未知的,同理增广系统F(y,u)未知。以下性能指标函数中的效用函数
在这里插入图片描述
折扣因子 γ \gamma γ只能在先验知道参考轨迹是由渐进稳定的指令生成系统产生情况下使用。参考轨迹有界,则有有界性能指标。定义值函数。贝尔曼方程形式,可定义最优值函数和最优控制策略。
在这里插入图片描述
非线性微分方程,难以求解,且未知增广系统动力学和效用函数。

对可容许控制策略,定义Qfunction(action-state value function),可得到最优Qfunction和等价的最优控制策略。
在这里插入图片描述
QLearning,
在这里插入图片描述
Theorem1给出迭代Qfunction的单调不增,大于等于最优Qfunction。迭代Qfunction和迭代控制策略的收敛性。
CriticNN近似值函数,即评价网络近似估计未知的Qfunction
在这里插入图片描述
实际情况下,评价网络输出为
在这里插入图片描述
基于梯度下降法更新控制策略
在这里插入图片描述
网络的激活函数一般是由人为经验选取。
(y,a,y’,R(y,a))为从实际系统所测量的数据,y’代表在控制a下的下一个状态。实际CoQL算法下,y’测量得到,而不需要系统动力学F。定义近似Qfunctio和效用函数的残差,以计算未知评价网络权重向量。根据真实系统数据采用最小二乘法计算权重向量,使最小化残差。
在这里插入图片描述
在这里插入图片描述
Theorem2给出以上算法得到的迭代Qfunction,满足不等式条件,该条件需要系统数据足够充足。如不同初始状态或任意随机探索行为动作
在这里插入图片描述
有迭代Qfunction收敛到最优。证明是先定义了在梯度下降迭代控制下的一个辅助Qfunction,后定义NN近似误差和权重误差,得到权重误差的有界性,并证明收敛到0,最后对近似Qfunction和辅助Qfunction做差,由数学归纳法证明其收敛性。
对比Actor-Critic NN,CoQL减少计算代价,但丢失一定的准确性。
在文章“R. Padhi, N. Unnikrishnan, X. Wang, and S. N. Balakrishnan, “A single network adaptive critic (SNAC) architecture for optimal control synthesis for a class of nonlinear systems”,单网络自适应评价,比较SNAC和CoQL。

  1. CoQL是学习异策略数据的无模型方法,SNAC则是基于模型需要系统动力学
  2. CoQL求解最优跟踪控制问题,而SNAC求解最优调节问题
  3. CoQL是基于action-state value function(Qfunction),SNAC是基于state value function

在权重更新时的矩阵元素Z,由参数L和M组成,神经网络层数L和系统数据M,以学习Qfunction

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值