Model-Free Optimal Tracking Control via Critic-Only Q-Learning

LucienLSA

已于 2024-03-20 21:21:52 修改

阅读量118

点赞数 2

文章标签：笔记学习

于 2024-03-20 15:17:28 首次发布

本文链接：https://blog.csdn.net/DarlingLSA/article/details/136877812

版权

Model-Free Optimal Tracking Control via Critic-Only Q-Learning Biao Luo, Member, IEEE, 2016，Derong Liu, Fellow, IEEE, Tingwen Huang, and Ding Wang, Member, IEEE

对非仿射非线性离散时间系统，提出model-free最优跟踪控制问题。仅有评价网络的QLearning方法，根据真实系统数据学习最优跟踪控制，因此避免了求解HJB方程。Qlearning算法基于增广系统，仅使用一个神经网络近似Qfunction。考虑神经网络的近似误差证明了CoQL方法的收敛性。采用梯度下降法。CoQL是基于off-policy和仅有评价结构的方法。
为避免显式使用期望控制，利用期望参考轨迹的误差系统和指令生成器以获得增广系统，并且引入折扣因子，不需要内部动力学，采用在线策略迭代方法对线性或非线性连续系统实现最优跟踪轨迹控制 “H. Modares and F. L. Lewis, “Linear quadratic tracking control of partially-unknown continuous-time systems using reinforcement learning”，在具有输入限制的非线性离散系统“B. Kiumarsi and F. L. Lewis, “Actor–critic-based optimal tracking for partially unknown nonlinear discrete-time systems,”，在无完整系统模型，利用输入输出数据求解线性离散系统的最优跟踪控制问题”B. Kiumarsi, F. L. Lewis, M.-B. Naghibi-Sistani, and A. Karimpour, “Optimal tracking control of unknown discrete-time linear systems using input-output measured data,”。
model-free方法上如何收集数据是关键，off-policy允许任何控制策略生成数据，在执行其他控制策略时能够评估目标策略，从实际系统获取数据很有用，而on-policy则难以获得数据。on-policy方法则是根据目标控制策略产生系统数据，意味着学习的控制策略需要在收敛之前得到相应的系统数据。而且on-policy方法可能存在探索不充分的情况。
对非仿射非线性离散时间系统，定义指令生成器、跟踪误差和增广系统。由于model-free，f(x,u)和h®是未知的，同理增广系统F(y,u)未知。以下性能指标函数中的效用函数
在这里插入图片描述
折扣因子 $\gamma$ 只能在先验知道参考轨迹是由渐进稳定的指令生成系统产生情况下使用。参考轨迹有界，则有有界性能指标。定义值函数。贝尔曼方程形式，可定义最优值函数和最优控制策略。

非线性微分方程，难以求解，且未知增广系统动力学和效用函数。

对可容许控制策略，定义Qfunction(action-state value function)，可得到最优Qfunction和等价的最优控制策略。
在这里插入图片描述
QLearning，

Theorem1给出迭代Qfunction的单调不增，大于等于最优Qfunction。迭代Qfunction和迭代控制策略的收敛性。
CriticNN近似值函数，即评价网络近似估计未知的Qfunction

实际情况下，评价网络输出为

基于梯度下降法更新控制策略
在这里插入图片描述
网络的激活函数一般是由人为经验选取。
(y,a,y’,R(y,a))为从实际系统所测量的数据，y’代表在控制a下的下一个状态。实际CoQL算法下，y’测量得到，而不需要系统动力学F。定义近似Qfunctio和效用函数的残差，以计算未知评价网络权重向量。根据真实系统数据采用最小二乘法计算权重向量，使最小化残差。
在这里插入图片描述

Theorem2给出以上算法得到的迭代Qfunction，满足不等式条件，该条件需要系统数据足够充足。如不同初始状态或任意随机探索行为动作

有迭代Qfunction收敛到最优。证明是先定义了在梯度下降迭代控制下的一个辅助Qfunction，后定义NN近似误差和权重误差，得到权重误差的有界性，并证明收敛到0，最后对近似Qfunction和辅助Qfunction做差，由数学归纳法证明其收敛性。
对比Actor-Critic NN，CoQL减少计算代价，但丢失一定的准确性。
在文章“R. Padhi, N. Unnikrishnan, X. Wang, and S. N. Balakrishnan, “A single network adaptive critic (SNAC) architecture for optimal control synthesis for a class of nonlinear systems”，单网络自适应评价，比较SNAC和CoQL。

CoQL是学习异策略数据的无模型方法，SNAC则是基于模型需要系统动力学
CoQL求解最优跟踪控制问题，而SNAC求解最优调节问题
CoQL是基于action-state value function(Qfunction)，SNAC是基于state value function

在权重更新时的矩阵元素Z，由参数L和M组成，神经网络层数L和系统数据M，以学习Qfunction

LucienLSA

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Model-Free Optimal Tracking Control via Critic-Only Q-Learning

Model-Free Optimal Tracking Control via Critic-Only Q-Learning Biao Luo, Member, IEEE, Derong Liu, Fellow, IEEE, Tingwen Huang, and Ding Wang, Member, IEEE
复制链接

扫一扫