文章目录
论文:ACTION SEMANTICS NETWORK: CONSIDERING THE EFFECTS OF ACTIONS IN MULTIAGENT SYSTEMS
存在的问题&研究动机&研究思路
- 自然界中的多智能体协作任务中存在这样一种性质:智能体的某些动作只能对环境造成影响或对自己造成影响,比如说从A点移动了一点距离;而有些动作会对对手造成直接的影响,比如攻击对手。
- 可以认为的把对对手智能体造成直接影响(或重大影响)的动作单独分出来,即把动作分成两类:一类是对对手没有直接影响的动作,另一类是给对手造成直接影响的动作。
- 当训练算法时,如果一次性考虑所有动作,会同时把意义不大的第一类动作考虑进来,或者说对决策引入了noise,用处不大而且可能会有副作用。因此将两类动作分开考虑,或者说把给对手造成直接影响的动作特殊考虑。
创新点
- 文中提出了Action Semantics Network (ASN)来替代如QMIX中的每个智能体的效用函数:即原先QMIX中的效用函数直接输出所有动作的Q值后取argmax,而ASN将两类动作分开输出Q值。对基于Policy的网络也是类似的道理,只不过分别输出的是动作的概率值。
- 第二类动作可以有一个或多个。
- 相同的 ( i , j ) (i, j) (i,j)之间进行参数共享,因此有同构ASN和混合式ASN。
算法框图
实验
SMAC部分实验:
1. 在IQL、QMIX和VDN中,将智能体的效用函数替换为ASN,在8m地图(同构)中agent的表现均有明显提升。
2. 在2s3z地图(异构)中QMIX也有明显提升。
3. 15m地图(更大规模)中提升明显。
4. 相比于原始的效用函数,ASN对动作值函数有更好的估计。
some points
- 提出了一种通用的可替代常规效用函数的网络。此网络可以重点关注一个或多个对对方智能体有直接影响的动作,从而减少了策略学习的noise。
- 文章重点:根据自然界多智能体协作的固有属性,将智能体重点的动作划分出来,提出了ASN,使得网络输出的动作值函数对动作本身的表征更准确。