多智能体强化学习论文——ASN(ICLR 2020)

最新推荐文章于 2024-03-30 22:48:56 发布

条件反射104

最新推荐文章于 2024-03-30 22:48:56 发布

阅读量680

点赞数

分类专栏：多智能体强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/qq_40317204/article/details/120886243

版权

多智能体强化学习专栏收录该内容

18 篇文章 27 订阅

订阅专栏

文章目录

论文：ACTION SEMANTICS NETWORK: CONSIDERING THE EFFECTS OF ACTIONS IN MULTIAGENT SYSTEMS
存在的问题&研究动机&研究思路
创新点
算法框图
实验
some points

论文：ACTION SEMANTICS NETWORK: CONSIDERING THE EFFECTS OF ACTIONS IN MULTIAGENT SYSTEMS

存在的问题&研究动机&研究思路

自然界中的多智能体协作任务中存在这样一种性质：智能体的某些动作只能对环境造成影响或对自己造成影响，比如说从A点移动了一点距离；而有些动作会对对手造成直接的影响，比如攻击对手。
可以认为的把对对手智能体造成直接影响（或重大影响）的动作单独分出来，即把动作分成两类：一类是对对手没有直接影响的动作，另一类是给对手造成直接影响的动作。
当训练算法时，如果一次性考虑所有动作，会同时把意义不大的第一类动作考虑进来，或者说对决策引入了noise，用处不大而且可能会有副作用。因此将两类动作分开考虑，或者说把给对手造成直接影响的动作特殊考虑。

创新点

文中提出了Action Semantics Network (ASN)来替代如QMIX中的每个智能体的效用函数：即原先QMIX中的效用函数直接输出所有动作的Q值后取argmax，而ASN将两类动作分开输出Q值。对基于Policy的网络也是类似的道理，只不过分别输出的是动作的概率值。
第二类动作可以有一个或多个。
相同的 $(i, j)$ 之间进行参数共享，因此有同构ASN和混合式ASN。

算法框图

在这里插入图片描述

实验

SMAC部分实验：
1. 在IQL、QMIX和VDN中，将智能体的效用函数替换为ASN，在8m地图（同构）中agent的表现均有明显提升。
2. 在2s3z地图（异构）中QMIX也有明显提升。
3. 15m地图（更大规模）中提升明显。
4. 相比于原始的效用函数，ASN对动作值函数有更好的估计。

some points

提出了一种通用的可替代常规效用函数的网络。此网络可以重点关注一个或多个对对方智能体有直接影响的动作，从而减少了策略学习的noise。
文章重点：根据自然界多智能体协作的固有属性，将智能体重点的动作划分出来，提出了ASN，使得网络输出的动作值函数对动作本身的表征更准确。

条件反射104

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
多智能体强化学习论文——ASN(ICLR 2020)

文章目录论文：ACTION SEMANTICS NETWORK: CONSIDERING THE EFFECTS OF ACTIONS IN MULTIAGENT SYSTEMS存在的问题&研究动机&研究思路创新点算法框图实验some points论文：ACTION SEMANTICS NETWORK: CONSIDERING THE EFFECTS OF ACTIONS IN MULTIAGENT SYSTEMS存在的问题&研究动机&研究思路自然界中的多智能体协作任
复制链接

扫一扫

专栏目录