【MAAC，MARL注意力机制】多智能体强化学习的Actor-Attention-Critic算法

最新推荐文章于 2024-06-14 10:51:35 发布

ZicMe

最新推荐文章于 2024-06-14 10:51:35 发布

阅读量1.4k

点赞数

分类专栏：强化学习论文笔记文章标签：算法人工智能机器学习神经网络深度学习

本文链接：https://blog.csdn.net/qq_18506857/article/details/131826542

版权

强化学习论文笔记专栏收录该内容

15 篇文章 3 订阅

订阅专栏

MAAC是一种多智能体强化学习算法，它引入了注意力机制来解决环境中智能体间的交互问题。每个智能体的Actor-Attention-Critic结构动态选择关注的其他智能体，降低了输入空间的增长率，适应于合作、竞争和混合环境。这种方法通过独立训练每个智能体并使用注意力批评家来处理环境的动态性和非稳态性，优化了学习效率。

摘要由CSDN通过智能技术生成

【MAAC，MARL注意力机制】多智能体强化学习的Actor-Attention-Critic算法 MAAC

Actor-Attention-Critic for Multi-Agent Reinforcement Learning

提出注意力机制的多智能体强化学习方法

方法分类

独立训练每个代理以最大化其个人奖励，同时将其他代理视为环境的一部分
- 这种方法违背了环境应该是平稳的、马尔可夫性的。由于其他智能体的策略变化，任何单个智能体的环境都是动态和非稳态的。
所有的智能体可以被集体建模为一个单一的智能体，它的动作空间是所有智能体的联合动作空间
- 此方法不可扩展，操作空间的大小随着智能体的数量呈指数增长。此外，还需要在执行期间进行密切的通信，因为中央策略必须收集来自各个智能体的观察结果并将操作分发给各个智能体
集中训练分散执行（critic使用全局信息学习，actor只能使用其相应的信息）
- 不能拓展到更多的agent情况（大规模agent）以及普遍适用于合作（共享全局reward），竞争性或混合性的环境和任务

本文特点

在上述方法中拓展。提出的注意力评论家（attention critic）能够在训练过程中的每个时间点动态选择需要关注的智能体，而不是像集中学习的critic一样简单地考虑所有时间点的所有智能体
提出的方法具有相对于agent数量线性增长的输入空间，适用于合作、竞争和混合环境

具体方法

Multi-Actor-Attention-Critic (MAAC)
- $Q^ψ_i(o,a)$ 是智能体i的观察和行动以及其他智能体的贡献的函数， $f_i$ 为多层感知器（MLP）的第二层， $g_i$ 为第一层
  
  在实验中使用多个注意力头，每个头使用单独的 $W_k,W_q,V)$ 参数，然后产生所有其他agent对agent i的贡献总和，最后将所有头得到的贡献和连接为单个向量
- Attentive Critics学习
  
  由于参数共享，所有的critic被一起更新，最小联合损失计算为： $\overline ψ、\overline θ$ 分别是critic target和actor target网络的参数， $α$ 是决定最大熵和奖励之间平衡的参数
独立的policy梯度递增更新为：其中 $b(o, a_{/i})$ 为基线
- 优势函数
  
  通过 $e_i$ 与 $x_i$ 就能得到多智能体的基线，通过输出agent i可采取的每个action的 $Q_i(o，(a_i, a_{/i}))$ ，然后计算
  
  这样做，就必须从 $Q_i$ 中移除 $a_i$ ，输出所有action的值：为每个agent添加一个观察值编码器 $e_i=g^o_i(o_i)$ 替代 $e_i=g_i(o_i,a_i)$ ，然后修改 $f_i$ 让他为每个可能的action输出一个值