《A Survey and Critique of Multiagent Deep Reinforcement Learning》阅读

摘要

本文描述近年来多智能体深度强化学习(multiagent deep reinforcement learning,MDRL)的一些方法。

  1. 回顾之前在MAL和RL中提出的关键组件,并强调了它们是如何适应多智能体深度强化学习设置的。
  2. 为该领域的新从业者提供了一般的指导方针:描述从MDRL工作中获得的经验教训,指出最近的基准,并概述开放的研究途径。
  3. 采取了更批判性的语调,提出了MDRL的实际挑战。

介绍

文中提到可以将多智能体系统(multiagent learning,MAL)分类为如下几种:

  • learning in non-stationary enviroments
  • agents modeling agents
  • transfer learning in multiagent RL

在深度强化学习中,训练深度神经网络来近似最优策略或价值函数。这样,深度神经网络作为函数近似器,具有很强的泛化能力。DRL的一个关键优点是,它使RL能够扩展到具有高维状态和动作空间的问题。但是目前成功的DRL大多在视觉领域,如Atari游戏。对于带有复杂动态的更现实的应用(不一定是基于视觉的),还有很多工作要做。

MDRL

多智能体的环境比单智能复杂很多,智能体会在同一时间与环境以及其它智能体交互。

independent learner,也称为decentralized learner的方法,直接将单个智能体的算法应用到多智能体,尽管这些算法的基本假设被违背了(每个agent独立学习自己的策略,将其他agent视为环境的一部分)。在这种方式下,由于环境不再是静止的,Markov属性(未来动态、过渡和奖励仅取决于当前状态)变得无效。这种方法完全忽略了设置多agent的本质,当对手适应或学习时,它可能会失败。虽然缺乏保证,但是依旧在实践中得到了应用。

MDRL方法的分类

  • Analysis of emergent behaviors(突发行为分析):在多智能场景下评估单智能体DRL算法。主要目标在于分析和评估DRL算法,而不是提出学习算法
  • Learning communication(通信学习): agent学习通信协议来解决协作任务。
  • Learning cooperation(协作学习):agent学习只用行动和(局部)观察来合作。
  • Agent modeling agents(智能体建模):agent通过推理建模完成任务。

MDRL的分类

Emergent behaviors

研究重点是为learning agents调整奖励函数,从而产生合作或竞争的突发行为。
emergent behaviors

Learning communication

Learning communication

Learning cooperation

Learning cooperation

agents modeling agents

agents modeling agents

.

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值