多智能体强化学习论文——ATOC（NIPS 2018）

最新推荐文章于 2023-04-12 11:04:14 发布

条件反射104

最新推荐文章于 2023-04-12 11:04:14 发布

阅读量1.4k

点赞数

分类专栏：多智能体强化学习文章标签：深度学习神经网络强化学习

本文链接：https://blog.csdn.net/qq_40317204/article/details/120277905

版权

18 篇文章 28 订阅

订阅专栏

存在的问题&研究动机&研究思路

在多智能体协作任务中，智能体通信是一种有效方式。但是智能体数量很多的时候，对某个智能体来说，他很难确定哪些信息是有价值的，这使得通信效果大打折扣甚至起副作用。
在真实世界中，通信需要消耗高带宽和计算复杂度。
预先定义的通信机制有可能会限制通信的效果和抑制一些潜在的协作策略。

整个算法框架遵循actor-critic框架，包含策略网络、值网络、注意力单元和通信通道。
注意力单元：对所有智能体，注意力单元判断某一智能体 $i$ 是否能够当作 $i n i t i a t o r$ （可看作二分类的分类器）。若智能体 $i$ 可以当作 $i n i t i a t o r$ ，则它可以选择其观测范围内的所有智能体是否作为 $c o l l a b o r a t o r s$ ，并构成一个通信小组，这个通信小组在 $T$ 个时间步中维持不变，因为协作行为需要一段时间才能起作用。
通信通道：双向的LSTM单元。整合一个通信小组中所有智能体的信息，促成协作决策。当某个智能体同时属于两个通信小组，通过通信通道，将促成两个小组的信息互通，最终有利于团队之间产生协调策略。
值网络和policy网络的更新都是用常规的梯度下降法。通信通道参数的更新也是用梯度反传的方法。
注意力单元，当作一个二分类分类器进行训练，使用二分类任务交叉熵损失函数。对每个通信小组内的智能体分别求出通信选出的动作和未进行通信选出的动作，求其平均数的差值，存到一个队列内。最后对所有的 $\Delta Q_i$ 进行最大最小归一化，作为损失函数中的二分类概率。

在这里插入图片描述

参数共享会使智能体的行为趋向于相似，但是智能体间通信可以增加策略的多样性。
ATOC和HAMA(AAAI 2020)都是提供了一种大规模多智能体场景下训练的框架。ATOC是在训练的过程中加入了分组机制，不同组之间通过共同的 $c o l l a b o r a t o r s$ 也进行了沟通。而HAMA是在训练前，利用分层的图卷积注意力机制，对不同智能体进行分组，并且每个智能体都能分层的获得其他智能体的信息，从而得到了一个包含其他智能体信息的embedding $h_i$ 。