Distributed Optimal Tracking Control of DT Multiagent Systems via Event-Triggered RL_distributed optimal tracking control of discrete-t-CSDN博客

本文链接：https://blog.csdn.net/DarlingLSA/article/details/136946446

Distributed Optimal Tracking Control of Discrete-Time Multiagent Systems via Event-Triggered Reinforcement Learning，2022， Zhinan Peng ,RuiLuo , Jiangping Hu , Senior Member, IEEE,KaiboShi , Member, IEEE, and Bijoy Kumar Ghosh , Life Fellow, IEEE

对离散时间多智能体系统使用强化学习解决事件触发最优控制问题。与传统基于强化学习的时间触发控制多智能体系统的最优协调控制相比，仅在设计的事件被触发时才更新控制，减少计算量和传输负载。actor-critic网络近似性能指标，并在线学习事件触发最优控制。事件触发权重调整方法与传统的时间触发（周期固定）方法相比，仅在触发时调整actor神经网络的权重参数，权重调整是非周期性的。基于事件触发的actor-critic神经网络以学习事件触发最优控制。

文章目的为设计分布式控制器，所以智能体跟随领导者轨迹。

多智能体处理信息交换上计算量大的问题，传统上控制器和执行器在系统运行过程中常更新，采样周期固定，提出非周期采样的事件触发控制方案。对未知或不精确系统动力学提出事件触发控制器。
Assumption1给出通信图网络具有领导者的生成树，且无重复的边。
定义局部不一致误差及其动力学，对MASs求解最优跟踪控制，以找到最优分布式控制，最小化局部性能指标函数
事件触发控制器，定义触发递增序列，触发条件需要依赖触发误差和状态相关触发阈值。该触发条件设计需定义触发误差(gap function)，为当前不一致误差(current disagreemnet error)和采样不一致误差(sample disagreement error)。
Theorem1给出MASs事件触发最优控制下，触发条件满足时，则不一致误差动力学是渐进稳定的。证明在触发条件满足时，根据李雅普诺夫理论；当触发条件不满足时，误差系统由更新控制信号，迭代值函数满足贝尔曼方程。触发条件针对MASs是独立的，即每个智能体不需要其他智能体的监督，从而减少通信资源冗余。
评价网络近似，定义近似迭代值函数
在这里插入图片描述
定义时间差分即贝尔曼残差，则最小化其损失函数，由梯度下降法更新权重。
事件触发的最优协同控制结构图
同理动作网络近似

动作网络权重以事件触发形式给出，非周期下进行更新。
Assumption3假设评价网络、动作网络权重参数和评价网络近似误差是有界的。
Theorem2给出在MASs下，控制策略由近似动作网络定义，评价网络和动作网络更新。如果事件触发条件满足时，则局部不一致误差和评价网络近似误差和动作网络近似误差是最终一致有界的。且近似事件触发控制收敛到最优控制。