Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

最新推荐文章于 2024-01-23 01:40:23 发布

-朝汐-

最新推荐文章于 2024-01-23 01:40:23 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_40679158/article/details/121432043

版权

机器学习专栏收录该内容

13 篇文章 2 订阅

订阅专栏

多智能体强化学习的相关问题：

分层强化学习（hierarchical reinforcement learning）- In Advances in neural information processing systems分层强化学习(Learning-representations-in-Model-Free-HRL)—知乎
多智能体自我学习（multi-agent self-play）：将RL算法扩展到多智能体环境中分层强化学习（Self-play）—知乎

D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, and D. Hassabis. Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587):484 –
489, 2016.
S. Sukhbaatar, I. Kostrikov, A. Szlam, and R. Fergus. Intrinsic motivation and automatic curricula via asymmetric self-play. arXiv preprint arXiv:1703.05407, 2017.

在DQN中，经验回放的使用提高了Q learning的稳定性，但在多智能体环境的非稳定性妨碍了经验回放的直接使用，因为策略会随着训练的过程而发生改变。使用策略梯度方法会有很高的方差，解决这个问题需要使用基于模型的策略优化，这需要world的动力学可求导模型，但这会带来adversarial training method的不稳定。

文章提出了通用多智能体强化学习算法：

算法的目标

使得智能体在执行时，学习到的策略只使用local information（智能体自己的观察）
不假设环境动力学的一个differentiable模型和多智能体之间通信方法的特定结构
能够同时应用于涉及到physical和communicative行为的合作、竞争或者混合合作和竞争的interaction

具体的方法

使用集中训练分散执行的框架，允许策略使用额外的信息来简化训练，只要这些信息在测试时不被使用。提出的算法对actor-critic策略梯度方法进行了扩展，其中critic知道关于其他智能体策略的额外信息，但actor只可以使用local信息。在训练结束后，执行阶段只有local actors可以被用合作和竞争环境中，并执行动作。因为完全集中化不需要开发离散通信协议。

因为智能体在critic函数中使用其他智能体的决策策略，智能体在线学习其他智能体的近似模型，并在自己的策略学习过程中有效地使用它们。

使用ensemble of policies 方法训练智能体来提高多智能体策略的稳定性。

现有方法的缺陷：不能考虑到所有的interaction方式，往往只考虑合作的方式。通过optimistic和hysteretic的Q function更新
来提高集体奖励，或者当智能体为同质智能体时，通过共享policy参数的方法来间接达到合作。每个智能体都有一个critic，使得在竞争环境中每个智能体都可以有不同的奖励函数。算法可以用于考虑了具有explicit communication的合作环境和只涉及到智能体之间的物理interactions 的竞争博弈。

在这里插入图片描述
设N个智能体策略的参数为 $\mathbb{\theta}=\left\{ \theta_{1}, \cdots, \theta_{N} \right\}$ ，所有智能体的策略为 $\mathbb{\pi}=\left\{ \pi_{1}, \cdots, \pi_{N} \right\}$ 。智能体 $i$ 的期望return为 $J(\theta_{i})=\mathbb{E}[R_{i}]$
$\nabla_{\theta_{i}}J(\theta_{i})=\mathbb{E}_{s\sim p^{\mu}, a_{i} \sim \pi_{i}}[\nabla_{\theta_{i}}log \pi_{i}(a_{i} \mid o_i) Q^{\pi}_i (x,a_1,\cdots,a_N)]$
在最简单的情况下， $x$ 可以是所有智能体的观察信息 $x=(o_1, \cdots,o_N)$ ， $Q^{\pi}_i$ 输入还包括其他智能体的动作和关于当前状态的其余可用信息。因为每个智能体的 $Q^{\pi}_i$ 都是分开学习的，所以每个智能体都可以由任意的reward结构，包括竞争环境中的conflicting reward。

考虑确定性策略，则对于每个智能体有：
$\nabla_{\theta_{i}}J(\mu_i)=\mathbb{E}_{x, a \sim \mathcal{D}}[\nabla_{\theta_{i}}log \mu_{i}(a_{i} \mid o_i) \nabla_{a_i} Q^{\mu}_i (x,a_1,\cdots,a_N)\mid_{a_i=\mu_{i}(o_i)}]$
考虑连续性策略 $\mu_{\theta_{i}}$ ，简写为 $\mu_{i}$ 。 $\mathcal{D}$ 是包含 $x^{\prime},a_1,\cdots, a_N,r_1,\cdots,r_N)$ 元组的经验回放缓冲区。centralized动作价值 $Q^{\pi}_i$ 的更新为
$\mathcal{L}(\theta_{i})=\mathbb{E}_{x,a,r,x^{\prime}}[(Q^{\mu}_i(x,a_1,\cdots,a_N)-y)^{2}],y=r_i+\gamma Q^{\mu^{\prime}}_{i}|{a^{\prime}_{j}=\mu^{\prime}_{j}(o_j)}$
在对动作价值函数进行更新时，需要知道其他智能体的策略。并不一定需要知道其他智能体的观察和策略。如果训练的目标是在模拟中展现复杂的communicative行为，observations和policies对所有智能体而都是可用的。如果对于从observations学习其他智能体的策略是必要的，就可以relax这个假设。

推断其他智能体的策略

智能体 $i$ 对智能体 $j$ 的策略的近似 $\widehat{\mu}_{\phi^{j}_{i}}$ ，对参数 $\phi$ 进行估计
$\mathcal{L}(\phi^{j}_{i})=-\mathbb{E}_{o_j,a_j}[log\widehat{\mu}^{j}_{i}(a_j |o_j)+\lambda H(\widehat{\mu}^{j}_{i})]$
智能体使用策略集成

过训练多个子策略，并随机选择执行子策略，来解决多智能体竞争中的非稳定问题。假设 $\mu_i$ 是K个不同子策略 $\mu^{(k)}_{i}$ 的集合。对于每个智能体 $i$ ，最大化集合目标 $J_{e}(\mu_{i})=\mathbb{E}_{k\sim unif(1,K),s\sim p^{\mu},a\sim \mu^{(k)}_{i}}[R_{i}(s,a)]$ .
每个子策略 $\mu^{(k)}_{i}$ 都由一个回放缓冲区 $\mathcal{D}^{k}_{i}$ ；关于参数 $\theta^{(k)}_{i}$ 的梯度为
$\nabla_{\theta^{(k)}_{i}}J_{e}(\mu_i)=\frac{1}{K} \mathbb{E}_{x,a\sim \mathcal{D}^{(k)}_{i}}[\nabla_{\theta^{(k)}_i} \mu^{(k)}_{i}(a_i|o_i)\nabla_{a_i}Q^{\mu_i}(x,a_1,\cdots,a_N)|_{a_i=\mu^{(k)}_{i}(o_i)}]$