MADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments笔记

1. 论文讲了什么

在这篇文章中通过基于所有代理的观测和动作学习一个集中的critic,指导每个代理的actor进行更新的方式,将DDPG方法推广到了多代理强化学习环境中得到了MADDPG算法。主要创新点有(1)将其它代理的观测信息和决策信息用于集中critic的更新,使代理能够根据价值函数学习到合作或竞争策略,(2)通过最大似然估计的方法,近似其它代理的策略,从而可以在更新集中价值函数的过程中不需要再假设已知其它代理的策略。(3)通过采用策略集合优化的方法,每个代理优化一个策略集合,使代理在面对竞争代理策略改变时具有鲁棒性。

2. 论文摘要:

We explore deep reinforcement learning methods for multi-agent domains. We begin by analyzing the difficulty of traditional algorithms in the multi-agent case: Q-learning is challenged by an inherent non-stationarity of the environment, while policy gradient suffers from a variance that increases as the number of agents grows. We then present an adaptation of actor-critic methods that considers action policies of other agents and is able to successfully learn policies that require complex multiagent coordination. Additionally, we introduce a training regimen utilizing an ensemble of policies for each agent that leads to more robust multi-agent policies. We show the strength of our approach compared to existing methods in cooperative as well as competitive scenarios, where agent populations are able to discover various physical and informational coordination strategies.

我们探索了深度强化学习在多代理领域的应用。我们首先分析了在多代理问题中传统算法的问题:Q-learning需要面对一个不稳定的环境,策略梯度方法会随着代理数量的增多方差会变大。我们展示了actor-critic方法的改进算法,使算法考虑到其它代理的动作。在需要代理间复杂协作的问题中,算法具有很好的表现。除此之外,我们介绍了每个代理使用全部代理的策略进行训练的方法,这提高了多代理策略的鲁棒性。我们通过与已有算法在协作和竞争场景下的比较展示了我们算法的优势——多代理能够发现多种物理和信息协作策略。

3. 论文主要观点:

3.1 背景:

传统RL算法面临的一个主要问题是由于每个智能体都是在不断学习改进其策略,因此从每一个智能体的角度看,环境是一个动态不稳定的,这不符合传统RL收敛条件。并且在一定程度上,无法通过仅仅改变智能体自身的策略来适应动态不稳定的环境。由于环境的不稳定,将无法直接使用之前的经验回放等DQN的关键技巧。策略梯度算法会由于智能体数量的变多使得本就有的方差大的问题加剧。除此之外,还可以使用基于模型的策略优化方法,这个方法可以通过反向传播的方法学习到最优策略,但是需要知道环境的可微分动态模型以及代理之间的交互假设。从优化的视角看,应为对抗训练方法的不稳定性,将这些方法用于竞争环境也是非常具有挑战性的。

本文的方法与《Counterfactual multi-agent policy gradients》的方法相似。但本文的方法在四方面与之不同:(1)后者为每个代理学习了一个集中的critic,本文为每个代理集中学习了一个代理,使代理能够使用不同的奖励函数包括竞争场景,(2)本文考虑代理之间具有显式通信的环境,(3)后者将循环策略和前馈critic结合,本文使用的是前馈策略(也可以使用循环策略),(4)本文学习的是连续策略,后者学习的离散策略。

本文的算法具有以下三点特征:(1)通过学习得到的最优策略,在应用时只利用局部信息就能给出最优动作。(2)不需要知道环境的动力学模型以及特殊的通信需求。(3)该算法不仅能用于合作环境,也能用于竞争环境。

算法采用了集中培训和分散执行的框架,允许策略使用额外的信息来简化训练,在测试的时候不使用这些信息。如果不对环境的结构做额外的假设,Q-learning无法实现这一点,因为Q函数在训练和测试时通常不能包含不同的信息。因此,本文的算法是基于actor-critic策略梯度方法扩展得到的,critic通过使用与其它代理测率相关的信息来获得增强,actor的输入为代理的本地信息。完全集中训练的方式不再需要开发代理间离散的通信协议。

3.2 问题:

完全集中和完全分散的方式都会面临各种在实际应用中的问题。

目前的工作主要集中在学习代理间协同通信协议来解决各种任务。但是这些方法通过需要在代理之间的通信能够在一个专用的、可微的通信信道中完成。

策略梯度的方法用在多代理学习中会增大本来就很大的方差。通过减去基线(状态价值函数)来减小方差的方法在多代理环境中也会出现问题,因为代理面对的环境是一个不稳定的环境。

3.3 方法:

多代理深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法所应用的环境具有的特点有:(1)所学习的策略在执行期间只能使用本地信息(如它们自己的观测),(2)不假设环境的动态模型是可微的,(3)不假设代理间的通信架构(换而言之,不假设通信信道可微)。满足上述需求将能够实现一种通用的多代理学习算法,不仅可以应用于具有明确通信信道的合作游戏,还可以应用于竞争游戏和只涉及代理间物理交互的游戏。

MADDPG算法使用的集中训练、分散决策的框架。这使得代理能够在训练期间使用额外的信息来简化训练。而这种方式无法用于Q-leanring中,因为在Q-learning中训练和执行的输入不能包含不同的信息。因此本文在actor-critic方法上进行扩展,使critic能够使用与其它代理策略相关的额外信息来获得加强。

代理数量为 N N N,代理策略的参数为 θ = { θ 1 , … , θ N } \theta=\left\{\theta_{1}, \ldots, \theta_{N}\right\} θ={ θ1,,θN} π = { π 1 , … , π N } \pi=\left\{\pi_{1}, \ldots, \pi_{N}\right\} π={ π1,,πN}为所有代理的策略。代理 i i i期望回报的梯度 J ( θ i ) = E [ R i ] J\left(\theta_{i}\right)=\mathbb{E}\left[R_{i}\right] J(θi)=E[Ri]为:
∇ θ i J ( θ i ) = E s ∼ p μ , a i ∼ π i [ ∇ θ i log ⁡ π i ( a i ∣ o i ) Q i π ( x , a 1 , … , a N ) ] ( 1 ) \nabla_{\theta_{i}} J\left(\theta_{i}\right)=\mathbb{E}_{s \sim p^{\mu}, a_{i} \sim \pi_{i}}\left[\nabla_{\theta_{i}} \log \pi_{i}\left(a_{i} | o_{i}\right) Q_{i}^{\pi}\left(\mathbf{x}, a_{1}, \ldots, a_{N}\right)\right](1) θiJ(θi)=Espμ,aiπi[θilogπi(aioi)Qiπ(x,a1,,aN)](1)
Q i π ( x , a 1 , … , a N ) Q_{i}^{\pi}\left(\mathrm{x}, a_{1}, \ldots, a_{N}\right) Qiπ(x,a1,,aN)为以所有代理动作 a 1 , … , a N a_{1}, \ldots, a_{N} a1,,aN和状态信息 x \mathbf{x} x为输入的集中动作价值函数,输出为代理 i i i的Q值。 x x x可以包括所有代理的观测 x = ( o 1 , … , o N ) x=\left(o_{1}, \ldots, o_{N}\right) x=(o1,,oN),如果能够获得附加状态信息,可以加入附加的状态信息。因为每一个 Q i π Q_{i}^{\pi} Qiπ是单独学习的,所有每个代理都可以有不同的奖励函数,可以在竞争环境中使用冲突奖励函数。

我们可以把以上方法扩展到确定策略中。如果我们考虑

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值