The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games 阅读笔记

-朝汐-

已于 2022-05-03 15:45:08 修改

阅读量5.1k

点赞数 1

分类专栏：机器学习算法文章标签：算法机器学习深度学习

于 2022-02-14 15:35:17 首次发布

本文链接：https://blog.csdn.net/weixin_40679158/article/details/122925517

版权

机器学习同时被 2 个专栏收录

13 篇文章

订阅专栏

算法

5 篇文章

订阅专栏

本文详细介绍了MAPPO算法，一种针对多智能体环境的PPO变体，强调了其在DEC-POMDP中的应用，价值函数的优化策略，以及如何处理同质智能体的协同学习。讨论了采样效率、重要性采样、训练技巧和算法结构，包括PPO裁剪和'死亡'隐藏问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MAPPO算法是PPO算法专用于多智能体环境的变体。PPO作为on-policy算法，在多智能体环境下有着与其他off-policy的算法相比有着相同的采样效率，并在大多数场景下有着更好的表现。MAPPO算法可以同时作为CTDE（集中训练，分散执行，有集中的价值函数）算法或分散学习算法（分散的价值函数）。

名词解释：

DEC-POMDP: decentralized observable Markov decision processes

GAE: Generalized Advantage Estimation

homogeneous/heterogeneous agents: 同质/异质智能体

文章中研究是的分散部分可观察马尔科夫决策过程 (DEC-POMDP)，并假设环境中的智能体都是同质智能体并通过共享参数 $\theta$ 的策略 $\pi_{\theta}(a_i|o_i)$ 通过局部观察 $o_i$ 产生动作 $a_i$ ，并优化累积奖励函数 $J(\theta)=\mathbb{E}_{a^t,s^t}[\sum_t \gamma^t R(s^t, a^t)]$ .

建议一：利用值正规化来稳定值的学习.

建议二：将特定智能体的局部特征加入全局状态，并保证状态空间的维度不会变得更大.

建议三：避免使用过多的训练epoch和将数据分割为mini-batches.

训练数据的使用：

PPO算法使用重要性采样来对经验进行采样重用，从而将on-policy策略转换为off-policy策略。并用采样得到的数据用于多次epoch的训练。通常为10个epoch和每个epoch大约64个mini-batch。而在MAPPO中，频繁的采样会导致性能的下降，所以在难的任务中epoch为5，而简单的任务中为15。使用更多的数据用于估计梯度能够提高实际的性能，所以并不将mini-batch设为默认的64，而是更小（在SMAC中为2）。

建议四：为了更好的PPO算法性能，通过调整裁剪率 $\epsilon$ 来权衡训练的稳定性和快速的收敛.

PPO裁剪：

在PPO算法中，通过裁剪后的重要性比率(importance ratio)和价值损失(value loss)来限制策略和价值函数在迭代时的剧烈变化。

建议五：对于已经“死亡”的智能体，将取0的状态值和智能体的ID作为价值网络的输入.

“死亡”隐藏：在多智能体博弈中，一个智能体可能在博弈终止之前“死亡”。在多智能体策略梯度（PG）中，可以使用全局博弈状态来为“死亡”的智能体计算一个特定的全局状态。使得可以在接下来的timestep中继续使用包含已经“死亡”智能体的信息。但这样会放大学习到的价值函数（value function）的偏差（bias）。对“死亡”智能体价值的预测误差就会随着GAE的计算而累积，从而阻碍仍然“存活”智能体策略的学习。

MAPPO算法细节
在这里插入图片描述
MAPPO训练两个独立的神经网络： $a c t o r$ 网络的参数为 $\theta$ ，值函数网络 $c r i t i c$ 的参数为 $\phi$ 。同质的多智能体之间可以共享同一个 $a c t o r$ 网络和 $c r i t i c$ 网络，但也可以拥有各自的 $a c t o r$ 网络和 $c r i t i c$ 网络。
$c r i t i c$ 网络表示为 $V_{\phi}$ ，网络的输入为 $S$ ，而输出为 $\mathbb{R}$ 。
$a c t o r$ 网络表示为 $\pi_{\theta}$ ，输入为智能体的观察 $o^{(a)}_{t}$ ，输出为离散动作空间中的分类分布（ categorical distribution）或是在连续动作空间进行采样的多元高斯分布（Multivariate
Gaussian Distribution）的均值（mean）和标准差（standard deviation）向量。
$a c t o r$ 网络的训练目标是最大化训练目标：
$L(\theta)=[\frac{1}{B_n} \sum^{B}_{i=1} \sum^{n}_{k=1} \min(r^{(k)}_{\theta, i}A^{(k)}_{i},clip(r^{(k)}_{\theta,i},1-\epsilon,1+\epsilon)A^{(k)}_{i})]+\delta\frac{1}{B_n}\sum^{B}_{i=1} \sum^{n}_{k=1} S[\pi_{\theta}(o^{(k)}_{i})]$
其中
$r^{(k)}_{\theta,i}=\frac{\pi_\theta(a^{(k)}_i | o^{(k)}_{i})}{\pi_{\theta_{old}}(a^{(k)}_{i} | o^{(k)}_{i})}$

$A^{(k)}_{i}$ 是使用GAE计算的优势值， $S$ 是策略的熵， $d e l t a$ 是熵系数超参数。
$c r i t i c$ 网络的训练目标是最小化损失函数：
$L(\phi)=\frac{1}{B_n} \sum^{B}_{i=1}\sum^{n}_{k=1}(\max[V_{\phi}(s^{(k)}_{i} - \widehat{R}_{i})^{2}, (clip(V_{\phi}(s^{(k)}_{i}),V_{\phi_{old}}(s^{(k)}_{i})-\epsilon), V_{\phi_{old}}(s^{(k)}_{i})+\epsilon)-\widehat{R}_{i})^2])$
其中 $\widehat{R}_{i}$ 是折扣的奖励， $B$ 指的是batch size , $n$ 指的是智能体的数量。如果 $c r i t i c$ 网络使用RNN,则损失函数随时间相加，通过BPTT (Backpropagation Through time)对网络进行训练。
MAPPO算法的共同超参数
在这里插入图片描述
作为比较的MADDPG算法和QMIX算法的共同超参数

MAPPO，MADDPG和QMIX算法在MPE环境中使用的共同超参数