GRAPH CONVOLUTIONAL REINFORCEMENT LEARNING
一、创新点及概要
多智能体任务中,环境具有高动态性,各个智能体的状态都在快速改变,如何学习两个智能体之间的交互关系是一个关键问题。这篇文章从图网络的角度来对交互进行建模,主要有以下三个技巧来学习智能体之间的交互关系:
- 利用图卷积来处理智能体邻居数量不确定的问题,并且随着卷积层增加,每个智能体的感知域随之扩大。
- 涉及关系核(relation kernels),即多头注意力机制(multi-head attention mechanism)来对智能体之间的交互进行建模。
- 时序关系正则化(temporal relation regularization)来确保交互关系的一致性,能够让学习更稳定。
多智能体环境被建模为一个图网络,每个节点表示一个智能体,节点特征为该智能体观测到的状态。每个智能体与其邻居之间连接一条边。作者将该算法称为DGN,基于Q-learning拓展出来的算法。每层图网络利用attention机制对邻居节点信息进行加权更新自己节点的状态,随着层数的增加每个智能体的感知域随之扩大,因为根据图网络更新规则,每次利用邻居信息来更新自身节点信息,而邻居也在利用他的邻居更新他自身,故随着图网络层数的增多,每个节点所能获取信息