【MAAC,MARL注意力机制】多智能体强化学习的Actor-Attention-Critic算法

MAAC是一种多智能体强化学习算法,它引入了注意力机制来解决环境中智能体间的交互问题。每个智能体的Actor-Attention-Critic结构动态选择关注的其他智能体,降低了输入空间的增长率,适应于合作、竞争和混合环境。这种方法通过独立训练每个智能体并使用注意力批评家来处理环境的动态性和非稳态性,优化了学习效率。
摘要由CSDN通过智能技术生成

【MAAC,MARL注意力机制】多智能体强化学习的Actor-Attention-Critic算法 MAAC

Actor-Attention-Critic for Multi-Agent Reinforcement Learning


  • 提出注意力机制的多智能体强化学习方法

方法分类
  • 独立训练每个代理以最大化其个人奖励,同时将其他代理视为环境的一部分
    • 这种方法违背了环境应该是平稳的、马尔可夫性的。由于其他智能体的策略变化,任何单个智能体的环境都是动态和非稳态的。
  • 所有的智能体可以被集体建模为一个单一的智能体,它的动作空间是所有智能体的联合动作空间
    • 此方法不可扩展,操作空间的大小随着智能体的数量呈指数增长。此外,还需要在执行期间进行密切的通信,因为中央策略必须收集来自各个智能体的观察结果并将操作分发给各个智能体
  • 集中训练分散执行(critic使用全局信息学习,actor只能使用其相应的信息)
    • 不能拓展到更多的agent情况(大规模agent)以及普遍适用于合作(共享全局reward),竞争性或混合性的环境和任务
本文特点
  • 在上述方法中拓展。提出的注意力评论家(attention critic)能够在训练过程中的每个时间点动态选择需要关注的智能体,而不是像集中学习的critic一样简单地考虑所有时间点的所有智能体
  • 提出的方法具有相对于agent数量线性增长的输入空间,适用于合作、竞争和混合环境

具体方法
  • Multi-Actor-Attention-Critic (MAAC)

    在这里插入图片描述

    • Q i ψ ( o , a ) Q^ψ_i(o,a) Qiψ(o,a)是智能体i的观察和行动以及其他智能体的贡献的函数, f i f_i fi为多层感知器(MLP)的第二层, g i g_i gi为第一层

      在这里插入图片描述

      在实验中使用多个注意力头,每个头使用单独的 ( W k , W q , V ) (W_k,W_q,V) (Wk,Wq,V)参数,然后产生所有其他agent对agent i的贡献总和,最后将所有头得到的贡献和连接为单个向量

    • Attentive Critics学习

      由于参数共享,所有的critic被一起更新,最小联合损失计算为: ψ ‾ 、 θ ‾ \overline ψ、\overline θ ψθ分别是critic target和actor target网络的参数, α α α是决定最大熵和奖励之间平衡的参数

    在这里插入图片描述

    独立的policy梯度递增更新为:其中 b ( o , a / i ) b(o, a_{/i}) b(o,a/i)为基线

    在这里插入图片描述

    • 优势函数

      通过 e i e_i ei x i x_i xi就能得到多智能体的基线,通过输出agent i可采取的每个action的 Q i ( o , ( a i , a / i ) ) Q_i(o,(a_i, a_{/i})) Qi(o(ai,a/i)),然后计算

      在这里插入图片描述

      这样做,就必须从 Q i Q_i Qi中移除 a i a_i ai,输出所有action的值:为每个agent添加一个观察值编码器 e i = g i o ( o i ) e_i=g^o_i(o_i) ei=gio(oi)替代 e i = g i ( o i , a i ) e_i=g_i(o_i,a_i) ei=gi(oi,ai),然后修改 f i f_i fi让他为每个可能的action输出一个值

算法

在这里插入图片描述

在这里插入图片描述


相关博文

【多智能体RL】Actor-Attention-Critic for Multi-Agent RL

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值