多智能体强化学习-G2ANet

最新推荐文章于 2025-05-03 09:07:35 发布

大鱼治不了水

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量2.2k

点赞数 4

分类专栏：多智能体强化学习文章标签：人工智能算法

本文链接：https://blog.csdn.net/DAYUZHIBULESHUI/article/details/127841231

版权

多智能体强化学习专栏收录该内容

6 篇文章

订阅专栏

本文介绍了一种新颖的图注意力网络（G2ANet）方法，用于建模智能体间复杂关系，通过两阶段注意力机制进行游戏抽象，简化多智能体强化学习中的策略学习。实验在交通灯和追捕环境中验证了其有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Multi-Agent Game Abstraction via Graph Attention Neural Network

摘要

本文通过一个完整的图来建模智能体之间的关系，并创新性地提出一种基于两阶段注意力网络（G2ANet）的游戏抽象机制，表明两个智能体之间的交互以及交互的重要性。本文将这种检测机制集成到基于图神经网络的多智能体强化学习中，以进行游戏抽象（可以理解为为了提高智能体的性能，简化学习过程而提出的与多智能体系统结构等相关的先验知识），并提出了两种新的学习算法GA-Comm和GA-AC。

方法

在这里插入图片描述
如图所示，本文提出一种基于两阶段注意力网络的图网络结构来进行游戏抽象。hard-attention用来减少无关的边（无关的智能体信息），soft-attention用来学习重要的边（相关的智能体信息），然后使用图网络获得其他智能体的信息。最后，将获得的游戏抽象与强化学习算法结合。
G2ANet：将智能体之间的关系构建为图，每个智能体为一个节点，默认情况下，所有的节点成对连接。
agent-coordination-graph：智能体之间的关系构建为一个无相图： $G = (N, E)$ ，又节点集合 $N$ 和边集合 $E$ 组成，是 $N$ 的无序元素对。每个节点代表智能体的入口（开始），边代表两个相邻智能体之间的关系。
在这里插入图片描述
之前的工作大部分采用soft-attention机制获得重要性分布，包括环境中的所有智能体（与当前智能体不相关的智能体），从而削弱了真正有作用的智能体的影响。因此，G2ANet中先用hard-attention去除不相关的智能体，在用soft-attention确定相关智能体的权重分布。
部分可观测环境中，在时间步 $t$ ，每个智能体 $i$ 获得一个局部观测
$o_i^t$ ，它包含了智能体 $i$ 在图 $G$ 中的信息。通过MLP将局部观测 $o_i^t$ 编码为一个特征向量 $h_i^t$ ，然后，通过特征向量 $h_i^t$ 学习智能体之间的关系。hard-attention会输出一个one-hot向量，我们可以得到节点 $i$ 和 $j$ 之间的边是否存在于图 $G$ 中，以及每个智能体需要与哪些智能体交互。通过这种方式，策略学习被简化为几个较小的问题，并且可以实现初步的游戏抽象。
此外，图 $G$ 中每条边的权重不同。我们通过soft-attention学习每条边的权重。这样，我们可以得到智能体 $i$ 的一个子图 $G_i$ ，智能体 $i$ 仅仅与需要交互的智能体相连，边的权重代表关系的重要性。可以利用GNN获得子图 $G_i$ 的向量表示，代表其他智能体的贡献。
具体的，图上图所示。对于智能体 $i$ ,通过hard-attention机制学习到一个hard权重 $W_h^{i,j}$ ，决定智能体 $i, j$ 之间是否需要交互。利用LSTM网络输出权重（0，1）.对于智能体 $i$ ，我们将智能体 $i ， j$ 的嵌入向量合并为特征 $h_i,h_j)$ ，并将特征输入到LSTM模型中，这里采用了 $B i - L S T M$ ，减少输入顺序对权重的影响，考虑所有输入的影响。（传统LSTM中输出仅取决于当前时间和前一时间的输入，而忽略了后一时间的输出信息输入）
另外，由于hard-attention采用sampling过程而无法进行梯度反向传播，在这里尝试采用gumbel-softmax解决（具体可以参考gumbel-softmax）：
$W_h^{i,j}=gum(f{LSTM(h_i,h_j)})$
$g u m (.)$ 代表gumbel-softmax 函数。通过hard-attention，得到智能体 $i$ 的子图 $G_i$ ，图中， $i$ 仅仅与需要协作的智能体相连。
然后，使用soft-attention学习子图 $G_i$ 边的权重 $W_s^{i,j}$ ，使用query-key（键-值对）将嵌入 $e_i,e_j$ 进行比较，并将这两个嵌入之间的匹配值传递到softmax函数中（这里就是采用最基础的attention机制处理，对hard-attention保留的边进行重要性权重处理）
$W_s^{i,j}\propto exp(e_j^TW_k^TW_qe_iW_h^{i,j})$
$W_k$ 将 $e_j$ 转化为key, $W_q$ 将 $e_i$ 转化为query, $e_i,e_j$ 对应图中的 $h_i,h_j)$ 。

基于G2ANet的策略网络

大部分通信的研究中，通过聚合函数实现通信，聚合函数可以将所有其他智能体的通信向量（例如，平均函数、最大函数）聚合为一个向量，并将其传递给每个智能体。这样，每个智能体都可以接收所有智能体的信息并实现通信。但是，在大多数环境中，智能不需要与所有其他智能体通信。频繁的通信将导致高计算成本，并增加策略学习的难度。本文提出一种GA-Comm。
在这里插入图片描述
如上图， $o_i$ 代表智能体 $i$ 的观测，利用LSTM提取智能体的特征：
$h_i,s_i=LSTM(e(o_i),h'_i,s'_i)$
$h_i,s_i)$ 是LSTM的hidden和 cell states。关于其他智能体对智能体 $i$ 的贡献，我们首先使用两阶段注意机制来选择智能体 $i$ 需要与哪些智能体通信并获得其重要性
$W_h^{i,j}=M_{hard}(h_i,h_j), \\ W_s^{i,j}=M_{soft} (W_h,h_i,h_j)$
最后，通过soft-attention输出的权重对邻居特征进行加权处理得到邻居信息 $x_i$
$x_i=\sum_{j\neq i}w_jh_j=\sum_{j\neq i}W_h^{i,j}W_s^{i,j}h_j$
最后，利用策略梯度得到每个智能体的策略，并扩展到多种RL算法中
$a_i=\pi(h_i,x_i)$
$h_i$ 是智能体的观测特征， $x_i$ 是其他智能体对 $i$ 的贡献。

基于G2ANet的AC网络

在这里插入图片描述
基于M AAC。主要改进是计算其他智能体的贡献权重，在G2ANet-AC中，
$x_i=\sum_{j\neq i}w_jv_j=\sum_{j\neq i}w_jh(Vg_i(o_j,a_j))\\ w_j=W_h^{i,j}W_s^{i,j}\propto exp(h(BiLSTM_j(e_i,e_j))e_j^TW_k^TW_qe_i)$