Distributed Optimal Tracking Control of DT Multiagent Systems via Event-Triggered RL

Distributed Optimal Tracking Control of Discrete-Time Multiagent Systems via Event-Triggered Reinforcement Learning,2022, Zhinan Peng ,RuiLuo , Jiangping Hu , Senior Member, IEEE,KaiboShi , Member, IEEE, and Bijoy Kumar Ghosh , Life Fellow, IEEE

对离散时间多智能体系统使用强化学习解决事件触发最优控制问题。与传统基于强化学习的时间触发控制多智能体系统的最优协调控制相比,仅在设计的事件被触发时才更新控制,减少计算量和传输负载。actor-critic网络近似性能指标,并在线学习事件触发最优控制。事件触发权重调整方法与传统的时间触发(周期固定)方法相比,仅在触发时调整actor神经网络的权重参数,权重调整是非周期性的。基于事件触发的actor-critic神经网络以学习事件触发最优控制。

文章目的为设计分布式控制器,所以智能体跟随领导者轨迹。

多智能体处理信息交换上计算量大的问题,传统上控制器和执行器在系统运行过程中常更新,采样周期固定,提出非周期采样的事件触发控制方案。对未知或不精确系统动力学提出事件触发控制器。
Assumption1给出通信图网络具有领导者的生成树,且无重复的边。
定义局部不一致误差及其动力学,对MASs求解最优跟踪控制,以找到最优分布式控制,最小化局部性能指标函数
事件触发控制器,定义触发递增序列,触发条件需要依赖触发误差和状态相关触发阈值。该触发条件设计需定义触发误差(gap function),为当前不一致误差(current disagreemnet error)和采样不一致误差(sample disagreement error)。
Theorem1给出MASs事件触发最优控制下,触发条件满足时,则不一致误差动力学是渐进稳定的。证明在触发条件满足时,根据李雅普诺夫理论;当触发条件不满足时,误差系统由更新控制信号,迭代值函数满足贝尔曼方程。触发条件针对MASs是独立的,即每个智能体不需要其他智能体的监督,从而减少通信资源冗余。
评价网络近似,定义近似迭代值函数
在这里插入图片描述
定义时间差分即贝尔曼残差,则最小化其损失函数,由梯度下降法更新权重。
事件触发的最优协同控制结构图
同理动作网络近似
在这里插入图片描述
动作网络权重以事件触发形式给出,非周期下进行更新。
Assumption3假设评价网络、动作网络权重参数和评价网络近似误差是有界的。
Theorem2给出在MASs下,控制策略由近似动作网络定义,评价网络和动作网络更新。如果事件触发条件满足时,则局部不一致误差和评价网络近似误差和动作网络近似误差是最终一致有界的。且近似事件触发控制收敛到最优控制。

触发阶段,考虑候选李雅普诺夫函数,给出其一阶差分函数,由于误差有界,推得最优权重与近似误差之间的权重误差是最终一致有界的。
间隔阶段,考虑候选李雅普诺夫函数,动作网络权重不再更新,局部不一致误差和权重近似误差是最终一致有界的。且证明事件触发近似控制策略近似最优控制策略。

actor-criticNN和性能指标函数和事件触发控制器近似后,近似值函数和近似控制策略收敛到最优,同时贝尔曼方程误差接近0,也意味着最优性能指标函数满足DT-HJB方程。 根据最优控制策略,近似值函数收敛到最优值函数,且满足DT-HJB方程。

展望:文章每个智能体假设为线性时不变的系统,未来考虑对非线性系统提出事件触发RL求解最优协同控制问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值