多智能体强化学习论文——ASN(ICLR 2020)

论文:ACTION SEMANTICS NETWORK: CONSIDERING THE EFFECTS OF ACTIONS IN MULTIAGENT SYSTEMS

存在的问题&研究动机&研究思路

  1. 自然界中的多智能体协作任务中存在这样一种性质:智能体的某些动作只能对环境造成影响或对自己造成影响,比如说从A点移动了一点距离;而有些动作会对对手造成直接的影响,比如攻击对手。
  2. 可以认为的把对对手智能体造成直接影响(或重大影响)的动作单独分出来,即把动作分成两类:一类是对对手没有直接影响的动作,另一类是给对手造成直接影响的动作。
  3. 当训练算法时,如果一次性考虑所有动作,会同时把意义不大的第一类动作考虑进来,或者说对决策引入了noise,用处不大而且可能会有副作用。因此将两类动作分开考虑,或者说把给对手造成直接影响的动作特殊考虑。

创新点

  1. 文中提出了Action Semantics Network (ASN)替代如QMIX中的每个智能体的效用函数:即原先QMIX中的效用函数直接输出所有动作的Q值后取argmax,而ASN将两类动作分开输出Q值。对基于Policy的网络也是类似的道理,只不过分别输出的是动作的概率值。
  2. 第二类动作可以有一个或多个。
  3. 相同的 ( i , j ) (i, j) (i,j)之间进行参数共享,因此有同构ASN和混合式ASN

算法框图

在这里插入图片描述
在这里插入图片描述

实验

SMAC部分实验:
1. 在IQL、QMIX和VDN中,将智能体的效用函数替换为ASN,在8m地图(同构)中agent的表现均有明显提升。
2. 在2s3z地图(异构)中QMIX也有明显提升。
3. 15m地图(更大规模)中提升明显。
4. 相比于原始的效用函数,ASN对动作值函数有更好的估计

some points

  1. 提出了一种通用的可替代常规效用函数的网络。此网络可以重点关注一个或多个对对方智能体有直接影响的动作,从而减少了策略学习的noise。
  2. 文章重点:根据自然界多智能体协作的固有属性,将智能体重点的动作划分出来,提出了ASN,使得网络输出的动作值函数对动作本身的表征更准确
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值