COMA: Counterfactual Multi-Agent Policy Gradients笔记

COMA算法是为了解决多代理系统中全局奖励分配问题,采用集中训练、分散决策的框架。通过反事实基线(counterfactual baseline)来估计每个代理对全局奖励的贡献,从而有效地更新代理策略。在StarCraft单位微观管理任务中,COMA表现出显著优于其他多代理actor-critic方法的性能。
摘要由CSDN通过智能技术生成

1. 论文讲了什么/主要贡献是什么

文章介绍了COMA算法,主要解决了在集中训练、分散决策的框架中,全局全局奖励的分配问题。文中受到difference rewards的启发,采用了根据当前代理采取的动作相比于当前代理采取默认动作对全局奖励的提高来判断代理对全局奖励的贡献大小,从而对代理的actor进行有效的更新。并根据算法设计了能够有效估计优势函数的方式。

2. 论文摘要:

Cooperative multi-agent systems can be naturally used to model many real world problems, such as network packet routing or the coordination of autonomous vehicles. There is a great need for new reinforcement learning methods that can efficiently learn decentralised policies for such systems. To this end, we propose a new multi-agent actor-critic method called counterfactual multi-agent (COMA) policy gradients. COMA uses a centralised critic to estimate the Q-function and decentralised actors to optimise the agents’ policies. In addition, to address the challenges of multi-agent credit assignment, it uses a counterfactual baseline that marginalises out a single agent’s action, while keeping the other agents’ actions fixed. COMA also uses a critic representation that allows the counterfactual baseline to be computed efficiently in a single forward pass. We evaluate COMA in the testbed of StarCraft unit micromanagement, using a decentralised variant with significant partial observability. COMA significantly improves average performance over other multi-agent actor-critic methods in this setting, and the best performing agents are competitive with state-of-the-art centralised controllers that get access to the full state.

协作多代理系统可以用来对现实世界中的很多问题建模,例如网络包路由或自动驾驶车辆协同。对于能够有效学习面向这样的系统的分散策略的新的强化学习方法的需求很大。为了这个目的,我们提出了一个新的多代理actor-critic方法,叫做反事实多代理(counterfactual multi-agent, COMA)策略迭代方法。COMA使用了集中的critic来估计Q函数,使用了分散的actor来优化代理策略。并且,为了解决多代理credit分配的问题,使用了反事实基线(counterfactual baseline)边缘化了单个代理的动作,同时保持其它代理的动作不变。COMA还使用了允许反事实基线能够在一次向前传播中被高效计算的critic表示。我们评估了COMA在StarCraft unit micromanagement中的变现,使用了具有显著部分可观测性的分散变体。在这个情境下,COMA相比于其它多代理actor-critic方法显著提高了平均性能,最好的性能的代理可以和能够获得整体状态的集中控制器的最先进方法不相上下。

3. 论文主要观点:

3.1 背景:

目前在多代理学习中集中训练分散策略是一个标准的方法,但如何集中训练依然是一个正在被研究的问题。并且,在多代理学习中,如何将集中的全局奖励分配给每个代理也是一个问题。这需要判断代理对与全局奖励的贡献。如果每个代理设计单独的奖励函数,可以解决奖励分配的问题,但是代理可能无法做出牺牲自己的决策从而是全局奖励更高。

目前多代理强化学习的方向有深度多代理强化学习,从而能够扩展到高维输入和动作空间。另一个发展方向是进行代理之间的通信,在这个发展方向上,训练期间在代理之间传递梯度以及共享参数是两个利用集中训练的常见方法。但这些方法在训练期间需要额外的状态信息,并且没有解决多代理奖励分配的问题。

3.2 问题:

解决多代理学习中全局奖励的分配问题。

3.3 方法:

在这里插入图片描述

图一 (a) COMA中,在分散actors、环境和集中critic之间的信息流,红箭头和组件只在集中训练的过程中需要;(b)和(c) actor和critic的架构

COMA使用了actor-critic方法。并且COMA基于三个主要思想:

  • COMA使用了集中的critic。critic只在学习的过程中使用,actor只在执行的期间使用。因为在集中学习的过程中,critic需要依赖于联合动作和全局的状态信息。每个代理的策略只需要依赖于代理自身的动作观测历史。在COMA中每个代理共享参数。图一(a)展示了总体架构。

    根据基于TD估计的集中critic更新每个代理的actor的梯度为:
    ∇ θ π = ∂ ∂ θ π log ⁡ π ( u ∣ τ t a ) ( r + γ V ( s t + 1 ) − V ( s t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值