摘要
本文描述近年来多智能体深度强化学习(multiagent deep reinforcement learning,MDRL)的一些方法。
- 回顾之前在MAL和RL中提出的关键组件,并强调了它们是如何适应多智能体深度强化学习设置的。
- 为该领域的新从业者提供了一般的指导方针:描述从MDRL工作中获得的经验教训,指出最近的基准,并概述开放的研究途径。
- 采取了更批判性的语调,提出了MDRL的实际挑战。
介绍
文中提到可以将多智能体系统(multiagent learning,MAL)分类为如下几种:
- learning in non-stationary enviroments
- agents modeling agents
- transfer learning in multiagent RL
在深度强化学习中,训练深度神经网络来近似最优策略或价值函数。这样,深度神经网络作为函数近似器,具有很强的泛化能力。DRL的一个关键优点是,它使RL能够扩展到具有高维状态和动作空间的问题。但是目前成功的DRL大多在视觉领域,如Atari游戏。对于带有复杂动态的更现实的应用(不一定是基于视觉的),还有很多工作要做。
MDRL
多智能体的环境比单智能复杂很多,智能体会在同一时间与环境以及其它智能体交互。
independent learner,也称为decentralized learner的方法,直接将单个智能体的算法应用到多智能体,尽管这些算法的基本假设被违背了(每个agent独立学习自己的策略,将其他agent视为环境的一部分)。在这种方式下,由于环境不再是静止的,Markov属性(未来动态、过渡和奖励仅取决于当前状态)变得无效。这种方法完全忽略了设置多agent的本质,当对手适应或学习时,它可能会失败。虽然缺乏保证,但是依旧在实践中得到了应用。
MDRL方法的分类
- Analysis of emergent behaviors(突发行为分析):在多智能场景下评估单智能体DRL算法。主要目标在于分析和评估DRL算法,而不是提出学习算法。
- Learning communication(通信学习): agent学习通信协议来解决协作任务。
- Learning cooperation(协作学习):agent学习只用行动和(局部)观察来合作。
- Agent modeling agents(智能体建模):agent通过推理建模完成任务。
Emergent behaviors
研究重点是为learning agents调整奖励函数,从而产生合作或竞争的突发行为。
Learning communication
Learning cooperation
agents modeling agents
.