Event-Triggered Multigradient Recursive Reinforcement Learning Tracking Control for Multiagent Systems
文章目录
论文信息
作者:Weiwei Bai , Tieshan Li ,Yue Long and C. L. Philip Chen
单位:广东理工大学
期刊:IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS(SCI一区)
时间:2021
关键词:事件触发控制,多智能体系统(MASs),多梯度迭代(MGR),强化学习
一、摘要
本文研究了非线性多智能体系统(MASS)事件触发多梯度递归强化学习的跟踪控制问题。根据Lyapunov理论证明了所有质量信号都是半全局一致最终有界(SGUUB)。仿真结果验证了该策略的有效性。
1.重点研究了面向MASs的分布式强化学习方法。用CriticNN估计系统的长期策略效用函数,用actor NN逼近多智能体系统不确定的动力学。
2.多梯度递归(MGR)策略用于学习神经网络中的权值向量,消除了梯度下降法固有的局部最优问题,降低了对初值的依赖。
3.此外,强化学习和事件触发机制分别通过降低控制器信号的幅值和控制器的更新频率来节约MASs系统的能源。
二、创新点
2.1基于MGR的强化学习策略
针对不确定非线性MASs的跟踪控制问题,尝试了一种分布式强化学习策略,这给分布式强化学习控制器的设计带来了挑战。局部最优问题是可以解决的。
2.2事件触发
强化学习方法和事件触发机制分别通过降低控制器信号的幅值和控制器的更新频率来改善质量能量守恒。因此,可以减少执行器的机械磨损。
三、论文正文
3.1引言
3.1.1关于多智能体系统(MAS)的控制问题
MASs的控制问题一般包括共识控制、编队控制、输出调节等。共识控制的任务是在所设计的分配协议[6]-[8]下,使所有状态收敛到期望的或未规定的公共条件;编队控制的本质是协调跟踪,这给了智能体一个可能随时间变化的编队任务[9];在 [10] 和 [11] 中研究了输出调节控制,其中设计的控制器使智能体的输出收敛到一起或收敛到外系统的输出。实质上,协作跟踪控制问题包含了MAS的大多数协调控制问题。
3.1.2关于时间触发和事件触发
时间触发控制器按固定的采样周期更新,浪费资源。
3.1.3关于非线性问题的处理
将MASs中未知的动力学函数视为不确定的动力学,用NN或者模糊逻辑系统(FLS)去逼近不确定的动力学。值得指出的是,基于 NN 或 FLS 的控制已成为非线性 MAS 的重要控制设计方法。 然而,这些策略是在没有考虑最优控制问题的情况下开发的。
3.1.4关于最优控制问题
代表性的最优控制方法包括变分方法[26]、最小原理[27]和动态规划[28],由于为系统构造的Hamilton-Jacobi-Bellman(HJB)非线性函数可能无法直接求解,因此这些结果主要针对线性系统进行研究。对于非线性系统的控制器设计问题,人们研究了自适应动态规划(ADP)[30][31]来解决,其中构造了critic NN来求解非线性HJB函数,但ADP在建立代价函数时,需要人为操作和实验的先验知识,所以强化学习兴起了,强化信号直接来自于作为输出性能指标的代价函数。
3.2预备知识
3.2.1图理论
3.2.2MGR算法
MGR算法能利用更多的梯度来学习参数,因此收敛更快;多极值搜索问题有局部解后,梯度下降法会停止更新,而MGR不会。
3.2.3系统描述
根据参考文献[43][44]对系统方程进行变换,以避免非因果问题。
3.2.4RBF NN
3.3分布式强化学习共识控制器的设计
3.3.1Critic NN的设计
同论文1
3.3.2自适应控制器的设计
这部分分为3个步骤进行:第1步,第j(i=2,…,n-1)步,第n步。其中,在第1-i步中设计的是虚拟控制器,只有在最后第n步的时候设计真实的自适应控制器v(k)。
每部分大概的步骤都是:
1)写跟踪误差。根据定义的MASs问题的跟踪误差公式,代入系统方程。
2)用RBF NN估计误差表达式中的未知部分。
3)设计控制器并代入上述误差表达式。
4)设计效用函数。此处设计为未知动力学逼近误差+追踪误差的形式,让他们最小。
5)设计代价函数。
6)最小化代价函数,用MGR来进行权重向量的更新。
另外,设计的自适应控制器和事件触发策略形式为:
所提出的事件触发策略,根据自适应控制器(48)和执行器信号ui之间的偏差百分比来更新控制信号。
3.4仿真结果
3.4.1例一:1个领导者和4个跟随者的MAS系统
3.4.2例二:船舶航向跟踪系统
3.5结论
本文研究了一种新的事件触发的MGR强化学习控制方法,以解决离散时间MASs的一致性控制问题。采用MGR算法学习权值向量,避免了局部最优问题。分布式事件触发策略可以减少控制器的触发次数,减少执行器的机械磨损;事件触发策略和强化学习方法分别通过降低控制器的更新频率和控制器信号的幅值来节省能量。仿真结果表明了该方案的有效性。
四、未来工作
随机系统的强化学习控制
笔记
非因果系统
“因果”这个词放在信号与系统里就是有输入才有输出,但是在所有的系统中你有输入就一定有输出吗?又或者是你有输出但没有输入,这样的系统如何称呼?此类系统称为非因果系统。
可以很明显的看到,两边的t没有对上,这两个式子是非因果系统。
斯通-魏尔斯特拉斯(Stone-Weierstrass)定理
任何连续函数都可以用更简单的函数来一致逼近,像多项式。
编队拓扑通信图论
邻接矩阵、对角入度矩阵、图拉普拉斯矩阵。见https://www.guyuehome.com/9945。