ATOC:Learning Attentional Communication for Multi-Agent Cooperation
论文链接:https://arxiv.org/pdf/1805.07733.pdf
ATOC注意沟通模型,该模型学习何时需要沟通以及如何整合共享信息进行合作决策,使智能体在大规模多智能体的部分可观测分布式环境下学习高效的通信。
ATOC由一个策略网络、一个Q网络、一个注意单元和一个通信通道组成。这个模型的精彩之处在于受视觉注意力循环模型的启发,设计了一种注意力单元,它可以接收编码局部观测结果和某个智能体的行动意图,并决定该智能体是否要与其他智能体进行通信并在可观测区域内合作。如果智能体选择合作,则称其为发起者,它会为了协调策略选择协作者来组成一个通信组。利用双向 LSTM 单元作为信道来连接通信组内的所有智能体,整合一个群体中各主体的内部状态,引导主体进行协调决策。LSTM单元有选择地输出用于协作决策的重要信息,这使得智能体能够在动态通信环境中学习协调策略。