多智能体强化学习：个体奖励辅助多智能体强化学习

燕双嘤

已于 2022-10-26 10:00:36 修改

阅读量4.2k

点赞数 7

分类专栏：论文阅读文章标签：人工智能算法机器学习

于 2018-09-09 20:49:06 首次发布

原文链接：https://proceedings.mlr.press/v162/wang22ao/wang22ao.pdf

版权

论文阅读专栏收录该内容

17 篇文章

订阅专栏

题目：Individual Reward Assisted Multi-Agent Reinforcement Learning

出处：International Conference on Machine Learning（ICML，2022），深度学习顶级会议。

摘要：在许多真实的多智能体系统中，团队奖励的稀疏性往往使算法难以成功学习合作团队策略。目前，解决这一问题的常用方法是为智能体设计一些密集的个人奖励来指导合作。然而，大多数现有的作品利用个人奖励的方式并不总是促进团队合作，有时甚至会适得其反。在本文中，我们提出了个人奖励辅助团队策略学习（IRAT），它从密集的个人奖励和具有差异约束的稀疏团队反馈中学习每个智能体的两个策略，以相互更新这两个策略。不同场景下的实验结果，例如多智能体particle环境和Google Research Foot-ball环境，表明IRAT显著优于基线方法，可以在不偏离原始团队目标的情况下大大促进团队策略学习，即使个人奖励误导或与团队奖励冲突。

1，引言

现实生活中的许多控制问题需要多个智能体之间的相互合作。近年来，协作多智能体强化学习（MARL）已广泛应用于许多领域，如视频游戏（Vinyals等人，2019；Berner等人，2019年；Kurach等人，2020），天线运输（Shamsohoara等人，2019）和电网（Jin和Ma，2019）。协作性多agent任务通常只对团队目标有奖励。尽管研究人员在基于价值和基于策略的MARL算法（Sunehag等人，2018；Rashid等人，2018年；Wang等人，2021a；Lowe等人，2017；Foerster等人，2018，Iqbal&Sha，2019；Wang等，2021b；Yu等人，2021）方面取得了进展，但团队奖励在许多多智能体系统中的稀疏性仍然是最先进MARL算法的一大挑战。这些算法的实际应用通常需要一些密集的个人奖励，以指导智能体执行任务。例如，在解决足球比赛的情况下，虽然团队奖励（例如，比赛的胜利或失败，或得分）非常稀少，但我们可以手动为智能体成功传球、漂亮投篮和良好铲球分配积极奖励，并为意外行为（如越位和跑出球场）分配消极奖励。

通常有两种直接的方式来利用个人奖励。第一种方法是将所有智能体的个人和团队奖励的总和平均分配给他们。第二种方法是通过将每个智能体的个人奖励添加到团队奖励中，为每个智能体生成一个新的奖励函数。然而，这种简单的方法面临三个问题：

引入个人奖励将改变智能体的学习目标，导致意外行为偏离团队的预期目标。例如，对于训练智能体玩足球游戏而言，如果引入了太多鼓励个人技能（如传球、投篮和铲球）的个人奖励，智能体可能会更专注于实现这些技能，而不是赢得比赛。
个人和团队奖励的混合通常涉及加权系数和实践中相应的微调工作。
这两种奖励的混合使得信贷分配问题（Foerster等人，2018；Son等人，2019）更加困难。每个智能体的学习可能会受到其他智能体的个人奖励的干扰。仍然以足球场景为例，如果一个智能体跑出了赛场，将其惩罚分配给所有智能体肯定会影响其他智能体的学习。

在本文中，我们提出了个人奖励辅助团队策略学习（IRAT），这是一种新的多智能体策略梯度算法，是利用个人奖励促进智能体之间的合作提供了一种新的途径。该算法的关键思想是为每个智能体学习单个策略和团队策略，并对这两个策略施加差异约束，以指导策略优化过程。

一方面，从个人奖励中学习到的个人策略作为一种探索和抽样的方式，并鼓励逐步接近团队策略。另一方面，从稀疏的团队奖励中学习的团队策略不断从个人策略中提取知识，同时保持团队合作的目标不变。在具有各种个人和团队奖励设置的场景中的实验表明，我们的算法显著优于基线方法，即使在个人奖励误导或与团队奖励冲突的情况下，也可以极大地促进合作。

2，背景

在本节中，我们将形式化具有独立奖励的Dec-POMDP，并简要介绍MAPPO算法。

Dec-POMDPs：多智能体强化学习问题通常建模为马尔可夫博弈（Littman，1994）。在本文中，我们考虑了具有共享报酬的分散部分可观测马尔可夫决策过程（Dec-POMDPs）（Oliehoek和Amato，2016），这是由 $\left ( N,S,\left \{ A^i \right \}_{i\in N},P,R,\left \{ Z^i \right \}_{i\in N} ,O,\gamma\right )$ 元组定义的马尔可夫博弈的扩展，其中 $N=\left \{ 1,...,N \right \}$ 是一组智能体， $S$ 表示环境的状态空间， $A^i$ 表示智能体 $i$ 的动作空间。设 $A:=A^1\times A^2 \times ...\times A^N$ 表示联和动作空间， $P:S\times A\times S\rightarrow [0,1]$ 表示任何状态 $s\in S$ 到任何状态 $s^{'}\in S$ 的转移概率， $a\in A$ 表示任何联合行动， $R:S\times A\times S$ 是奖励函数，用于确定团队从 $(s,a)$ 过渡到 $s^{'}$ 时收到的即时奖励。符号 $o^i\in Z^i$ 来自观察函数 $O(s,i)$ ，是智能体 $i$ 在全局状态 $s$ 下的局部观察， $\gamma \in [0,1]$ 折扣系数。每个智能体都有局部动作观察历史 $\tau^i\in T\equiv \left ( Z^i\times A^i \right )^*$ ，在此基础上，它条件随机策略 $\pi^i\left ( a^i|\tau^i \right )$ ，该策略将每个智能体的局部历史映射到其动作集的分布。所有智能体的历史集由 $\tau:=\left \{ \tau^i \right \}_{i=1}^N$ 给出。

为了更好地建模具有设计个人奖励的多智能体学习问题，本文将 reward 函数修改为 $R:S\times A\times S\rightarrow R^{N+1}$ ，即包含每个智能体的个人奖励函数和共享团队奖励函数的函数向量。在每个时间步骤 $t$ ，当所有智能体采取联合行动 $a=(a_t^1,...,a_t^N)$ 时，环境返回奖励 $r=(r_t^1,...,r_t^N,\hat{r}_t)$ ，其中 $r_t^i$ 是智能体 $i$ 的个人奖励， $\hat{r}_t$ 是团队奖励。合作的智能体团队试图学习联合策略 $\pi(a|\tau):=\prod_{i=1}^{N}\pi^i(a^i|\tau^i)$ ，最大化其预期团队回报 $J(\pi)\doteq \mathbb{E}\left [ \sum_{t=0}^{\infty }\gamma^t\hat{r}_t \right ]$ 。

MAPPO：策略梯度技术（Sutton等人，1999）旨在估计智能体的预期收益相对于其策略参数的梯度。MAPPO（Yu等人，2021）将单智能体PPO（Schulman等人，2017）引入了分散执行集中训练（CTDE）框架下的多智能体领域。对于每个智能体 $i$ ，目标是最大化：

$J^{CLIP}(\theta^i)=\mathbb{E}\left [ min\left ( \eta ^i_t(\theta^i)A_t^i,clip\left ( \eta ^i_t(\theta^i) ,1-\epsilon ,1+\epsilon \right )A_t^i \right )\right ]$

其中 $\eta_t^i(\theta^i)=\frac{\pi_{\theta^i}(a_t^i|\tau_t^i)}{\pi_{\theta^i_{old}}(a_t^i|\tau_t^i)}$ 表示概率比。

函数 $clip(\cdot)$ 将 $\eta_l^i(\theta^i)$ 移出区间 $[1-\epsilon ,1+\epsilon ]$ 由 $\epsilon$ 参数化。 $A$ 是广义优势估计量（GAE）（Schulman等人，2016年）：

$A_t^i=\sum_{l=0}^h(\gamma \lambda)^l\delta _{t+l}^i$

其中 $\delta _t^i=r_t^i+\gamma V_{\phi^i}(s_{t+1})-V_{\phi^i}(s_t)$ 是智能体 $i$ 在时间步长 $t$ 处的TD误差， $h$ 是轨迹长度。

3，相关工作

最先进的MARL算法，如QMIX（Rashid等人，2018年）、QPLEX（Wang等人，2021a）、MAD-DPG（Lowe等人，2017年）、MAPPO（Yu等人，2021）在许多环境下都能很好地工作，例如MPE和星际争霸II，然而，这些算法仍然无法有效地解决团队奖励稀少的任务。奖励形成（Rahmat-talabi等人，2016）是解决这个问题的一种方法，它利用额外的个人奖励编码先验知识来帮助学习团队策略。然而，这种方法可能会改变合作任务的预期目标，并导致意外行为（Randløv&Alstrøm，1998；Russell&Norvig，2020；Amodei等人，2016）。此外，这类方法不是泛型的，需要根据任务进行定制。虽然基于势函数的方法可以确保学习目标不变（Ng等人，1999；Devlin&Kudenko，2011；Mannion等人，2018），但它们不能在实践中指导算法学习最优策略。显然，我们更关心的是如何利用个人奖励有效地学习团队奖励。

对于多智能体策略梯度算法，许多作品（Burda等人，2019；Ye等人，2020；Li等人，2021）采用 Multi-Critic 技术作为组合多个奖励的方式，这允许每个智能体为不同的奖励维护不同的 Critic，并根据它们的集成更新策略，以分解和简化原始值函数的学习。通过将个人奖励和团队奖励的最大化视为两个任务，也可以采用多任务学习（Yu等人，2020；Zeng等人，2021；Omidshafiei等人，2017）作为利用个人奖励的一种方式。例如，Yu等人提出了一种梯度手术，将任务的梯度投影到具有冲突梯度的任何其他任务的梯度的法线平面上，避免任务梯度之间的有害梯度干扰。

另一种利用个人奖励的方法是迁移学习（Liu等人，2019；Da Silva&Costa，2019）。简单地说，可以在具有个人奖励的源任务中预先训练智能体的策略，然后在具有稀疏团队奖励的目标任务中微调智能体的策略。多智能体进化强化学习（MERL）（Majumdar等人，2020）使用基于梯度的优化器训练策略，以最大化密集智能体特定奖励，并利用进化算法通过团队群体的神经进化最大化稀疏团队目标。尽管MERL研究的问题与我们的问题相同，但进化过程的高计算和内存成本将使其在实际应用中不切实际。此外，MERL仅将根据特定于agent的奖励学习的技能转移给团队群体，而不考虑使用团队策略来指导特定于agent策略的优化。

4，方法

在本文中，我们研究了如何在基于策略的CTDE框架下利用智能体的个人奖励。我们提出了一种新的多智能体策略梯度算法，该算法易于实现，并且不涉及高计算复杂度和空间复杂度。本节介绍了这项工作的方法。我们从动机开始，然后提供算法细节。

4.1，动机

如前一节所述，个人奖励可以通过Reward Shaping、Multi-Critic、Multi-Task和迁移学习来帮助学习团队策略。实际上，所有这些方法在一定程度上融合了两个学习目标（即最大化个人和团队回报）。我们认为，Reward Shaping、Multi-Critic、Multi-Task是实现这两个学习目标的有力工具。然而，由于团队奖励比个人奖励少得多，这种强烈的融合可能会导致学习目标偏离团队合作的目标。相比之下，迁移学习对个人和团队奖励的融合较弱，因为个人奖励仅用于训练前。虽然迁移学习可以确保团队的最终目标保持不变，但由于团队奖励的稀疏性，智能体在开始学习团队奖励后可能很快就会忘记预先训练的技能。上述方法都使用一个策略网络学习两个奖励，它们之间的干扰可能无法保证最终学习的策略是针对团队的。

为了解决这些问题，我们提出了个人奖励辅助团队策略学习（IRAT），它利用了两种融合方法的优点，同时避免了它们的不足。首先，对于每个agent，IRAT采用两种策略分别学习两个目标，而不会造成它们之间的相互干扰。其次，IRAT添加了新的策略差异约束，以约束两个策略之间的差异，从而使个人策略朝着增加团队奖励的方向探索，确保其优化方向一致。图1（a）显示了IRAT算法的思想。

团队奖励太少，无法将策略导向最佳策略（红线）。个人奖励密集，但只能学习次优策略（黄线）。IRAT能够利用个人奖励进行有效探索，并允许目标策略在早期学习阶段快速接近最优团队策略，并在后期学习阶段基于团队奖励接近最优团队策略（蓝线）。

4.2，个人奖励辅助团队策略学习

在IRAT算法中，每个 agent $i$ 学习一个由 $\theta_i$ 参数化的个体策略 $\pi^i$ ，以最大化预期的折扣累积个体报酬 $J(\theta^i)\doteq \mathbb{E}\left [ \sum_{t=0}^{\infty }\gamma ^tr_t^i\right ]$ ，以及由 $\hat{\theta}^i$ 参数化的团队策略 $\hat{\pi}^i$ ，以最大化预期的折扣累积团队奖励 $\mathbb{E}\left [ \sum_{t=0}^{\infty }\gamma^t\hat{r}_t \right ]$ 。两个策略同时学习，并且相互约束。

IRAT算法的学习结构如图1（b）所示。个人策略使用我们提出的以合作为导向的目标，根据团队策略的学习背景调整其学习行为。此外，他们使用递增效应KL正则化器来提取团队策略知识，以便他们的抽样行为可以逐渐偏向团队报酬较高的区域。团队策略使用重要性抽样校正优化目标和递减效应KL正则化器来有效地从单个策略抽样的轨迹中学习。在学习的早期阶段，对于每个agent $i$ ，KL正则化器几乎不适用于单个策略 $\pi^i$ ，而团队策略 $\hat{\pi}^i$ 的KL正则器使 $\hat{\pi}^i$ 更接近 $\pi^i$ 。整个算法趋于学习个人奖励技能。随着学习的进展， $\pi^i$ 的KL正则化子开始发挥作用，而 $\hat{\pi}^i$ 正则化逐渐失效。整个算法侧重于团队奖励的学习。

4.2.1，个人策略学习

团队策略从单个策略采样的轨迹中学习，最终学习目标是最大化预期的累积团队回报。每个智能体 $i$ 的个人策略 $\pi^i$ 需要根据团队策略的当前学习来调整其采样行为，以产生具有更高团队回报的样本。当两个策略一致时，个人策略 $\pi^i$ 应该快速学习，而当两个策略冲突太多时，个人策略 $\pi^i$ 应小心更新，以免偏离团队策略 $\hat{\pi}^i$ 太远。

为了衡量个人策略和团队策略之间的冲突程度，我们定义了 $\pi^i$ 和 $\hat{\pi}^i$ 在 $(\tau_t^i,a_t^i)$ 上的相似性：

$\sigma_t^i(\theta^i)=\frac{\pi_{\theta^i}(a_t^i|\tau_t^i)}{\hat{\pi}_{\hat{\theta}^i}(a_t^i|\tau_t^i)}$

基于定义的策略相似性，我们为 $\pi$ 提出了一个新的面向合作的目标：

$J^{IRAT}(\theta^i)=\mathbb{E}\left [clip \left (\sigma_t^i(\theta^i) ,1-\xi ,1+\xi\right )A_t^i\right ]$

其中 $\xi$ 是控制 $\sigma_t^i$ 更新范围的变化系数。当 $\xi$ 较大时，表示对两个策略相似性的约束较弱，当 $\xi$ 较小时，表示约束较强。

$J^{IRAT}$ 的基本思想是将 $\pi^i$ 的更新限制在策略相似性 $\sigma_i$ 定义的范围内。具体来说，如果单个策略 $\pi_i$ 与团队策略 $\hat{\pi}^i$ 非常不同（即 $\sigma^i$ 超出区间 $[1-\xi ,1+\xi]$ ），这可能表明两个策略没有沿着相同或相似的方向进行优化，策略参数相对于累积个人奖励的梯度将被剪裁，以使 $\pi^i$ 发生微小变化。

现在，我们介绍如何结合 $J^{IRAT}$ 和 $J^{CLIP}$ 这两个目标来优化单个策略。通常，组合取决于策略相似性 $\sigma^i$ 和指示单个策略更新方向的优势函数 $A^i$ 。

对于给定的局部轨迹作用对 $(\tau_t^i,a_t^i)$ ， $\sigma_t^i\leqslant 1$ 表示 $\hat{\pi}^i$ 选择 $a_t^i$ 的概率高于 $\pi^i$ 。在这种情况下，正优势 $A_t^i>0$ 表示个人策略 $\pi^i$ 和团队策略 $\hat{\pi}^i$ 在 $(\tau_t^i,a_t^i)$ 上趋于一致，因为由此产生的梯度将使 $\pi^i(\tau_t^i,a_t^i)$ 增加并更接近 $\hat{\pi}^i(\tau_t^i,a_t^i)$ 。为了加快逼近过程，我们可以选择一个学习目标，该目标可以在 $J^{IRAT}$ 和 $J^{CLIP}$ 之间提供更陡的策略梯度。当 $A_t^i\leqslant 0$ 时，相应的梯度会使 $\pi^i(\tau_t^i,a_t^i)$ 减小，并导致 $\pi^i(\tau_t^i,a_t^i)$ 和 $\hat{\pi}^i(\tau_t^i,a_t^i)$ 之间更不一致。因此，最好慢慢降低 $\pi^i(\tau_t^i,a_t^i)$ 的概率值，这表明学习目标的梯度对 $\pi^i$ 变化较小。综上所述， $\pi^i$ 的学习目标当 $\sigma_t^i\leqslant 1$ ：

$J(\theta^i)=\mathbb{E}\left [ \mathbb{I}_{\sigma_t^i\leqslant 1}max\left ( J^{CLIP}\left ( \theta^i \right ),J^{IRAT}\left ( \theta^i \right ) \right ) \right ]$

相应地，当 $\sigma_t^i>1$ 时， $\hat{\pi}^i$ 选择 $a_t^i$ 的概率低于 $\pi^i$ 。因此，当 $A_t^i>0$ 时，单个策略 $\pi^i$ 将进一步增加 $\pi^i(\tau_t^i,a_t^i)$ 的概率值，使得对 $(\tau_t^i,a_t^i)$ 两个策略的选择更加不一致。所以最好小心点增加 $\pi^i(\tau_t^i,a_t^i)$ 的概率值，这建议我们选择一个较小的学习目标，可以在 $J^{IRAT}$ 和 $J^{CLIP}$ 之间提供更温和的策略梯度。这种情况下的负优势 $A_t^i<0$ 表明个人策略 $\pi^i$ 和团队策略 $\hat{\pi}^i$ 在 $(\tau_t^i,a_t^i)$ 上趋于一致，因为由此产生的梯度将使 $\pi^i(\tau_t^i,a_t^i)$ 选择 $a_i^t$ 的概率较低。为了加快逼近过程，提出了一种梯度对 $\pi^i$ 变化较大的学习目标。在这种情况下 $\pi^i$ 的学习目标是

$J(\theta^i)=\mathbb{E}\left [ \mathbb{I}_{\sigma_t^i>1}min\left ( J^{CLIP}(\theta^i),J^{IRAT}(\theta^i) \right ) \right ]$

由于个人策略 $\pi^i$ 和团队策略 $\hat{\pi}^i$ 都从 $\pi^i$ 采样的轨迹中学习，为了有效地学习团队策略，个人策略应该采样具有更高团队回报的轨迹。因此，对于个人策略 $\pi^i$ 的学习目标，我们还添加了一个正则化器，该正则化器允许个体策略 $\pi^i$ 提取团队策略 $\hat{\pi}^i$ 学习的知识，并逐渐偏向团队回报较高的区域。在本文中，我们选择Kullback-Leibler（KL）散度作为正则化子，系数 $\alpha$ 递增。

综上所述，个人策略 $\pi^i$ 的整体目标是：

$J(\theta^i)=\mathbb{E}\left [ \mathbb{I}_{\sigma_t^i\leqslant 1}max\left ( J^{CLIP}(\theta^i),J^{IRAT}(\theta^i) \right )+\mathbb{I}_{\sigma_t^i> 1}min\left ( J^{CLIP}(\theta^i),J^{IRAT}(\theta^i) \right )-\alpha KL(\hat{\pi}^i,\pi^i) \right ]$

4.2.2，团队策略学习

团队策略 $\hat{\pi}^i$ 从 $\pi^i$ 采样的轨迹中学习。由于抽样策略和学习策略不同， $\hat{\pi}^i$ 有必要引入重要性抽样来纠正学习目标。因此 $\hat{\pi}^i$ 的更新率变为：

$\hat{\sigma}_t^i(\hat{\theta}^i)=\frac{\hat{\pi}_{\hat{\theta}^i}(a_t^i|\tau_t^i)}{\pi_{\theta_{old}^i}(a_t^i|\tau_t^i)}$

其中 $\theta_{old}^i$ 是采样时单个策略的参数。

从下面等式可以看出，在算法学习的早期阶段，个人和团队的策略可能会非常不同。因此 $clip(\cdot)$ 函数将剪掉大部分梯度，导致团队策略无法有效更新。为了确保 $\hat{\pi}^i$ 的有效更新，使用具有递减系数 $\beta$ 的KL正则化器来控制两个策略之间的距离。所以对于agent $i$ ， $\hat{\pi}^i$ 的目标是：

$\hat{J}(\hat{\theta}^i)=\mathbb{E}\left [ min\left ( \hat{\sigma}_t^i(\hat{\theta}^i)\hat{A}_t,clip\left ( \hat{\sigma}_t^i(\hat{\theta}^i),1-\zeta ,1+\zeta \right )\hat{A}_t \right )-\beta KL(\pi^i,\hat{\pi}^i) \right ]$

5，实验

对于复杂的多智能体合作问题，人工设计的有助于稀疏团队奖励学习的密集个体奖励可能并不完美，也不总是有利于团队策略的学习。我们基于多智能体粒子环境（MPE）（Lowe等人，2017）设计了具有不同个人奖励和团队奖励关系的多个场景，并证明了我们的算法个人奖励辅助团队策略学习（IRAT）可以有效地利用个人奖励学习团队策略，即使个人奖励有时误导或与团队奖励冲突。此外，我们还证明了IRAT在斯坦福智能系统实验室（SISL）（Gupta等人，2017）和谷歌足球研究环境（Kurach等人，2020）创建的多步行场景中的有效性。

本章介绍了利用第3章中提到的个别转发作为基准算法的方法。仅个人奖励（IR）方法和仅团队奖励（TR）方法分别是仅从个人奖励和团队奖励中学习的基线算法。Reward Shaping（RS）方法是一种使用奖励形成的算法，将个人奖励和团队奖励相加作为学习奖励。迁移方法在训练过程的前半部分使用个人内学习奖励，然后更改为团队内学习奖励。Multi-Critic方法使用两个批评网络分别评估个人奖励和团队奖励，然后使用两个优势的总和来引导策略更新。PCGrad（Yu等人，2020）方法将个人奖励和团队奖励的学习视为两个任务，并应用一个策略网络学习两个目标。

所有算法都基于CTDE框架，每个智能体使用参与者网络（对于IRAT，团队策略的参与者网络）在执行过程中根据局部轨迹做出决策。实验结果显示了每个算法每集的平均团队奖励和每步平均个人奖励的指数值。实验通过每集的平均团队奖励来衡量每个算法的性能。算法在个人和团队回报上的性能表明了任务的个人和团队报酬之间的关系。

图2.MPE和Multiwalker中不同场景的结果。第一行显示每集平均团队奖励的结果，第二行显示每一步平均个人奖励的指数值的结果。

5.1，捕食者-猎物：有用的个体奖励

在这种情况下，5个较慢的捕食者合作捕捉2个较快的猎物。环境中有2个障碍物阻挡道路，事件长度为25。捕食者智能体由算法控制，猎物由随机策略控制，其中每个猎物随机采样环境中的一个点作为其动作。对于每个捕食者智能体，距离最近的猎物有一个负回报。如果该智能体命中任何猎物，它可以获得5奖励。但只有当一个以上的智能体击中同一个猎物时，该团队才能获得20个团队的奖励。捕食者智能体事先不知道这种耦合信息。他们必须通过稀疏的团队奖励学习合作。

实验结果如图2（a）所示。在这种情况下，个体奖励鼓励智能体接近并击中猎物。这对团队任务非常有帮助，但缺乏合作信息。从结果可以看出，所有算法在团队奖励上的性能与其在个人奖励上的表现是一致的，即团队奖励越高的算法也有越高的个人奖励。该场景中的个人奖励是对每个智能体的团队奖励的良好分解。

在这种情况下，由于团队奖励的稀疏性，TR很难学习到有效的策略。由于个人奖励对团队学习有帮助且密集，IR能够学习效果良好的次优策略。由于两个奖励目标之间的干扰以及正负奖励的取消，RS表现不佳。最初，Transfer的性能与IR相同，然后逐渐忘记之前学习的知识并接近TR。Multi-Critic分解值网络的学习以精确逼近优势函数，PCGrad处理两个学习目标之间的梯度冲突。这两种方法的效果优于RS，但仍不如IR。这反映出使用一个策略网络学习两个奖励的这些方法的性能受到奖励质量的很大影响。如果团队奖励过于稀少，无法学习，甚至会对个人奖励的有效性产生负面影响，从而导致次优策略。IRAT通过个人奖励学习接近猎物，这增加了获得团队奖励的概率。随着个人策略提取团队策略的知识，IRAT方法进一步提高了团队合作的成功率，并优于其他方法。

5.2，传播：误导个人奖励

在这个场景中有4个智能体和2个地标，智能体学习合作以找到所有地标。对于每个智能体，个人奖励是到所有未发现地标的最小距离。只有当超过1个智能体同时检测到地标时，地标才会被覆盖，所有智能体都将获得与此时发现的地标数量相关的正团队奖励。发现一个地标的奖励是10。在上述实验中，智能体不知道合作信息，只能通过团队奖励来学习合作。

基于个人奖励，智能体学习接近未发现的地标。这似乎有助于学习团队奖励。然而，这种个人奖励可能会误导智能体。当一个地标被发现时，智能体会突然从一个新的未发现地标获得负奖励，这使得智能体留在原地，陷入僵局，因此错过了探索更高的团队奖励。从图2（b）可以看出，IRAT在学习后期获得的个人奖励较少，这表明智能体通过合作克服了个人奖励带来的陷阱。TR和Transfer无法学习到有用的策略，而其他基线方法只能在一个事件中找到一个智能体并获得10的团队奖励，长度为25。IRAT的个人策略将根据团队策略调整其抽样行为，这可以突破个人奖励的误导，使IRAT达到更高的团队奖励。

5.3，攻击：冲突的个人奖励

在这个场景中，有一个地标的大小为0.02，还有3个智能体的大小是0.1。团队的目标是三个智能体同时到达地标并攻击。如果他们完成攻击，环境将返回20的团队奖励，并结束episode。为了帮助学习，对于每个智能体，添加了到地标的距离惩罚，并添加奖励-1以避免碰撞。

然而，这种广泛使用的个人奖励设计将对团队目标的学习产生负面影响。在这种情况下，单个奖励引导智能体接近地标，并且不会相互碰撞，但由于地标的大小小于智能体的大小，当三个智能体同时攻击地标时，必然会发生碰撞。因此，这种奖励在开始时有利于学习，但会阻碍团队奖励在后期的学习。

从图2（c）可以看出，TR和Transfer无法学习到有用的策略。对于IR，个人奖励和团队奖励之间存在冲突，优化个人奖励必然会阻止智能体完成其攻击。因此，IR成功采样非零团队奖励的概率在后期降低。Multi-Critic和PCGrad在学习的早期表现类似于IR，但在学习的后期，随着个人和团队奖励之间的冲突增加，他们的表现逐渐下降。IRAT的个人策略在以后的学习过程中提取了团队策略的知识，使两个策略非常接近。这消除了个人和团队奖励之间的冲突，使IRAT方法获得比任何其他基准算法更高的团队奖励。同时，IRAT方法的个人回报低于IR，因为成功的团队攻击会导致智能体之间发生更多冲突，并产生更多负面回报。

5.4，多步行器

在Multiwalker中，一个包裹放置在由算法控制的2个两足机器人的顶部。两足机器人试图将包裹搬运到尽可能右侧。团队奖励的一部分是包裹距离的变化，步行者将获得额外的团队奖励−50当他们在任何一种情况下都失败时。对于每个智能体，它都有一个与站立相关的个人奖励，一个鼓励智能体向右移动的正向奖励，以及一个−5。这种情况下的团队奖励并不稀疏，由于环境噪声的干扰，可能会导致某种但不好的策略。

机器人的控制非常复杂。虽然团队奖励并不稀疏，但由于较大的探索空间，智能体只能收敛到次优联合策略。如图2（d）所示，TR可以学习某个策略，IR的性能更好。由于积极奖励和消极奖励之间的混合效应，其他基线方法很难优于IR和TR。然而，IRAT可以利用个人奖励中包含的知识来获得更高的团队奖励。

5.5，消融

在本节中，我们对捕食者-猎物进行了消融实验，以证明个体策略的合作导向 clip ICP、通过团队策略的重要性抽样修改的更新clip TCP、个体策略的KL正则化子IKL和团队策略的KL正则化器TKL的作用。为了证明ICP和TCP的作用，我们实现了以下变体。KL是我们算法的变体，只使用两个KL正则化器。KLICP是一种仅使用ICP和两个KL正则化子的变体，而KLTCP是仅使用TCP和两个KL正则化器的变体。

如图3（a）所示，KL和KLICP、IRAT和KLTCP之间的比较表明，当使用ICP时，个人策略将根据团队策略的表现调整其学习行为，并可以更快地探索团队奖励。相反，当个人策略不使用ICP时，它对有效团队奖励的轨迹样本较少，导致团队奖励学习较慢。比较KL和KLTCP、IRAT和KLICP，可以观察到，TCP能够稳定地提高团队策略的性能。

图3：捕食者-猎物的消融实验。

为了分析KL项的影响，我们实现并比较了以下各种算法。CP是删除两个KL正则化器并使用ICP和TCP的变体。IKLCP是一种删除TKL的变体，而TKLCP是删除IKL的变种。实验结果如图3（b）所示。ICP为个人策略更新提供了面向合作的指导，使个人策略能够根据策略相似性调整更新幅度，但个人策略仍基于其自身的优势函数进行更新，即仍在学习个人奖励。因此，随着学习的进行，两个策略之间的相似性变弱，单个策略的性能逐渐降低到IR，团队策略的有效更新也相应降低。对比CP和IKLCP、IRAT和TKLCP，从它们的性能可以看出，IKL允许个人策略逐步提取团队策略的知识，始终保持合作。因此，当使用IKL时，该算法逐渐侧重于学习团队奖励并获得更高的团队奖励。TKL在预学习期间控制两个策略之间的差异，以确保有效更新团队策略。当两种奖励一致且政策差异不大时，TKL的效果并不明显，但不会损害绩效。

5.6，谷歌足球

我们还在极具挑战性的谷歌足球研究环境（GRF）中进行实验，以验证IRAT在复杂场景中的性能。具体来说，我们在5-vs-5芬斯半场GRF任务中测试IRAT和5种基线方法。每种测试方法都应该学会控制左队（穿着黄色）的球员，但守门员除外，以便与右队（穿着蓝色）进行足球比赛。守门员和右队的所有球员都由GRF提供的基于规则的程序控制。比赛场地限制在左路球队的前场。在每 episode 开始时，所有非守门员球员的位置都是随机设置的，球被随机分配给左队的一名球员。当左队进球，或球进入左队后场，或达到最大时间步长3000时，一集将结束。所有测试方法均采用MAPPO作为基础学习算法。

只有当团队进球时，左团队的团队奖励为1，在其他情况下为0。我们设计了四种类型的个人奖励来帮助学习，包括位置奖励、投篮奖励、传球奖励和控球奖励。位置奖励是对跑出球场或越位线的惩罚。投篮奖励鼓励在进球机会高的区域投篮，并惩罚很长或无意义的投篮。传球奖励取决于球员之间传球的方式。虽然成功的传球会得到积极的奖励，但那些导致失去控球权、进攻状态恶化和越位的传球会受到惩罚。控球奖励是关于控球转换的个人奖励。奖励详情见附录。

每种方法训练5000万步，每50万步评估一次。一种方法的评估过程包含50个游戏，每个游戏持续3000个步骤。我们记录了每场比赛中每种方法的进球数，并得到了50场比赛中的平均进球分数。算法的所有测试均使用4个随机种子进行，结果如图4所示。可以发现，IRAT显著优于其他方法，具有更高的目标分数和更快的收敛速度。虽然IRAT在500万步内达到6的目标分数值，但其他方法至少需要2000万步才能达到这样的性能。对于渐进性能，IRAT和仅团队奖励（TR）方法最终都达到了最高的平均目标分数，但后者收敛速度慢得多，几乎在训练过程结束时达到IRAT的性能水平。

研究其他方法的学习过程也很有趣。在早期训练阶段，仅个人奖励（IR）方法的目标得分值比TR方法高得多。这是因为这四种类型的个人奖励可以引导智能体采取有利于进球的行为。例如，控球奖励要求智能体在控制球时保持持球状态，并在球归对手所有时尝试获得持球状态。传球和投篮奖励结合在一起，可以引导经纪人将球传给得分机会高的区域并投篮。然而，由于个人奖励与团队奖励并不完全一致，IR的目标分数值在大约1500万步后降低，这表明IR找到了一种更好的方法来获得更高的个人奖励。转移方法使用个人奖励在前2000万个步骤中训练智能体的策略，然后使用团队奖励在那里进行训练。因此，迁移和IR方法的学习曲线在初始阶段几乎重叠，在切换学习目标后，迁移方法的平均目标分数开始增加。与我们的IRAT方法一样，奖励形成（RS）和多评论家（MC）方法也将团队和个人奖励结合起来。有了个人奖励，这两种方法都可以在早期快速提高其目标分数，并且在团队奖励的基础上，其分数值随着训练的进行而不断增加。然而，由于个人和团队奖励之间的冲突，这两种方法的渐进性能未能达到IRAT和TR方法的性能水平。

除了目标分数指标外，我们还使用测试方法检查了智能体学习了哪些行为。具体来说，在该方法的每个评估游戏中，我们记录了左队的铲球、传球和投篮次数，这直接表明了学习方法如何处理个人奖励。结果也如图4所示。与基线方法相比，受IRAT控制的智能体学习更好的铲球和投篮技能，因为IRAT智能体在训练期间执行的铲球数和投篮数总是最大的。令人惊讶的是，图4（c）显示，没有一种测试方法学习传球偏好策略。正如我们在训练后的游戏视频中所观察到的那样，通过这些方法学习的进攻战术都是让智能体运球进入禁区并投篮，这是一种简单但有效的击败基于规则的机器人的战术。显然，学习这种战术比学习传球战术要容易得多。

6，结论

在本文中，我们研究了如何使用个人奖励来辅助具有稀疏团队奖励的协同任务中的多智能体强化学习。我们介绍了IRAT，一种新的多智能体策略梯度算法，它提供了一种利用个人奖励促进合作的新方法。IRAT的基本思想是为每个agent学习一个单独的策略和一个团队策略，在它们的公共信任区域更新这两个策略，同时对它们施加差异约束以从彼此中提取知识。在多智能体粒子环境和Google Research Football环境等各种场景中的实验表明，IRAT可以通过个人奖励极大地促进团队策略学习，并且显著优于最先进的方法。