论文研读-Deep Multi-Agent Reinforcement Learning-1

深度多智能体强化学习(DMARL)

此篇文章为 博士学位论文:Deep Multi-Agent Reinforcement Learning 的论文学习笔记,只供学习使用,不作商业用途,侵权删除。并且本人学术功底有限如果有思路不正确的地方欢迎批评指正!

多智能体强化学习是一个非常有趣的研究领域,它与单智能体强化学习、多智能体系统、博弈论、进化计算和优化理论有着密切的联系。

(一)论文摘要

在这篇论文中,我们开发和评估了新的深度多智能体强化学习方法,以解决这些环境中出现的独特挑战。这些挑战包括学会合作、沟通和在智能体之间相互回报。在大多数真实世界的用例中,在分散执行期间,最终的策略只能依赖于本地观察。然而,在许多情况下,可以进行集中训练,例如在模拟器上训练策略时,或者在训练过程中使用额外的状态信息和代理之间的自由通信时。

论文的第一部分研究了当多个智能体需要学习协作以获得一个共同的目标时出现的挑战。一个困难是多智能体信用分配的问题:由于所有智能体的行为都会影响一段经历的奖励,因此任何单个智能体都很难隔离其行为对奖励的影响。在这篇论文中,我们提出了反事实多智能体策略梯度来解决这个问题。在COMA中,每个代理通过将估计的回报与反事实基线进行比较来估计他们的行为对团队回报的影响。我们还研究了公共知识对于学习协调行动的重要性:在多智能体公共知识强化学习(MACKRL)中,我们使用了一个控制器层次结构,该层次结构以智能体子群的公共知识为条件,以便要么在群的联合行动空间中行动,要么委托给具有更多公共知识的较小子群。这里的关键见解是,所有策略仍然可以以完全分散的方式执行,因为每个代理都可以独立计算组的公共知识。在MALL中,由于所有代理都在同时学习,所以从任何给定代理的角度来看,世界似乎都是不稳定的。在依赖重放缓冲区的非策略强化学习中,这会导致学习困难。为了克服这个问题,我们提出并评估了一种元数据指纹,该指纹基于收集时间和当时策略的随机性,有效地消除了重放缓冲区中训练集的歧义。

到目前为止,我们假设智能体完全分散行动,即不直接相互通信。在论文的第二部分,我们提出了三种允许智能体学习通信协议的不同方法。第一种方法是可区分的智能体间学习(DIAL),它在集中训练期间使用离散通信信道(特别是廉价通话信道)上的区分来发现适合于解决给定任务的通信协议。第二种方法,强化智能体间学习,简单地使用智能体间学习来学习协议,有效地将消息视为动作。这两种方法都不能直接解释特工的信念。相比之下,当人类观察他人的行为时,他们会立即形成理论,说明为什么会采取某个特定的行为,以及这表明了世界的状态。受我们的洞察力启发,在我们的第三种方法——贝叶斯行为解码器(BAD)中,智能体使用近似贝叶斯更新直接考虑其他智能体的信息,并学习通过可观察的行为和基于基础的通信行为进行通信。利用BAD我们获得了在不完全信息下,合作卡牌游戏Hanabi的最佳已知性能。

虽然在论文的前两部分中,所有代理都在优化团队奖励,但在现实世界中,不同代理之间通常存在利益冲突。这可能会给MARL方法带来学习困难,包括学习不稳定和收敛到表现不佳的策略。在论文的第三部分,我们利用对手学习意识来解决这些问题。在LOLA中,智能体考虑到环境中其他智能体的学习行为,并致力于找到以对自己有利的方式塑造对手学习的策略。事实上,LOLA代理人没有收敛到迭代囚徒困境中表现不佳的缺陷-缺陷均衡,而是发现了针锋相对的策略。LOLA代理人有效地相互回报,导致整体更高的回报。我们还引入了无限可微蒙特卡罗估计器,这是一种新的计算工具,用于估计当一个代理考虑环境中其他代理的学习行为时出现的高阶梯度。除了对LOLA有用之外,DiE还是一个通用目标,当在自动微分库中微分时,它为随机计算图生成更高阶的梯度估计。

总之,本论文在多智能体环境中出现的广泛挑战方面取得了进展,也为未来的研究打开了许多令人兴奋的问题。这些包括当其他代理的回报或观察结果未知时,智能体如何学习解释其他智能体的学习,如何在部分共同感兴趣的环境中学习通信协议,以及如何解释人类在环境中的智能体。


总结

提示:这里对摘要进行总结:
论文摘要主要分为3个部分:多智能体协作、智能体之间通信、智能体之间竞争意识学习

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值