《A Survey and Critique of Multiagent Deep Reinforcement Learning》阅读

最新推荐文章于 2024-01-11 10:35:06 发布

可乐的橙子

最新推荐文章于 2024-01-11 10:35:06 发布

阅读量1k

点赞数 5

摘要

本文描述近年来多智能体深度强化学习（multiagent deep reinforcement learning，MDRL）的一些方法。

回顾之前在MAL和RL中提出的关键组件，并强调了它们是如何适应多智能体深度强化学习设置的。
为该领域的新从业者提供了一般的指导方针:描述从MDRL工作中获得的经验教训，指出最近的基准，并概述开放的研究途径。
采取了更批判性的语调，提出了MDRL的实际挑战。

介绍

文中提到可以将多智能体系统（multiagent learning，MAL）分类为如下几种：

learning in non-stationary enviroments
agents modeling agents
transfer learning in multiagent RL

在深度强化学习中，训练深度神经网络来近似最优策略或价值函数。这样，深度神经网络作为函数近似器，具有很强的泛化能力。DRL的一个关键优点是，它使RL能够扩展到具有高维状态和动作空间的问题。但是目前成功的DRL大多在视觉领域，如Atari游戏。对于带有复杂动态的更现实的应用(不一定是基于视觉的)，还有很多工作要做。

MDRL

多智能体的环境比单智能复杂很多，智能体会在同一时间与环境以及其它智能体交互。

independent learner，也称为decentralized learner的方法，直接将单个智能体的算法应用到多智能体，尽管这些算法的基本假设被违背了（每个agent独立学习自己的策略，将其他agent视为环境的一部分）。在这种方式下，由于环境不再是静止的，Markov属性(未来动态、过渡和奖励仅取决于当前状态)变得无效。这种方法完全忽略了设置多agent的本质，当对手适应或学习时，它可能会失败。虽然缺乏保证，但是依旧在实践中得到了应用。

MDRL方法的分类

Analysis of emergent behaviors(突发行为分析)：在多智能场景下评估单智能体DRL算法。主要目标在于分析和评估DRL算法，而不是提出学习算法。
Learning communication（通信学习）: agent学习通信协议来解决协作任务。
Learning cooperation（协作学习）：agent学习只用行动和(局部)观察来合作。
Agent modeling agents（智能体建模）：agent通过推理建模完成任务。

MDRL的分类

Emergent behaviors

研究重点是为learning agents调整奖励函数，从而产生合作或竞争的突发行为。
emergent behaviors

Learning communication

Learning cooperation

agents modeling agents

可乐的橙子

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《A Survey and Critique of Multiagent Deep Reinforcement Learning》阅读

摘要本文描述近年来多智能体深度强化学习（multiagent deep reinforcement learning，MDRL）的一些方法。回顾之前在MAL和RL中提出的关键组件，并强调了它们是如何适应多智能体深度强化学习设置的。为该领域的新从业者提供了一般的指导方针:描述从MDRL工作中获得的经验教训，指出最近的基准，并概述开放的研究途径。采取了更批判性的语调，提出了MDRL的实际挑战。介绍文中提到可以将多智能体系统（multiagent learning，MAL）分类为如下几种：le
复制链接

扫一扫