【QMIX】一种基于Value-Based多智能体算法

最新推荐文章于 2025-02-27 12:35:04 发布

__何枝

最新推荐文章于 2025-02-27 12:35:04 发布

阅读量8.4k

点赞数 20

分类专栏： Deep Reinforcement Learning 文章标签：深度学习人工智能神经网络算法

本文链接：https://blog.csdn.net/qq_38638132/article/details/114177729

版权

文章目录

QMIX 是一种基于 Value-Based 的多智能体强化学习算法（MARL），其基本思想来源于 Actor-Critic 与 DQN 的结合。使用中心式学习（Centralized Learning）分布式执行（Distributed Execution）的方法，利用中心式 Critic 网络接受全局状态用于指导 Actor 进行更新。QMIX 中 Critic 网络的更新方式和 DQN 相似，使用 TD-Error 进行网络自更新。除此之外，QMIX 中为 Critic 网络设立了 evaluate net 和 target net，这和 DQN 中的设计思想完全相符。

1. QMIX 解决了什么问题（Motivation）

QMIX 是一种解决多智能体强化学习问题的算法，对于大多数多智能体强化学习问题（MARL）都面临着同样一个问题：信度分配（也叫回报分配）。

这是指，当多个 Agent 在同时执行任务时，我们应该怎样合理的去评价每一个 Agent 的行为效用，举个例子：

假设我们现在正在训练一个算法模型，使用该算法模型去玩 MOBA 类游戏（DOTA 或者 LOL），算法模型需要同时操控 5 个英雄。在训练过程中遇到了这样一个情况：我方 3 个英雄迎面撞上了敌方 1 个英雄。此时，算法模型控制 1 号英雄和 2 号英雄对敌方英雄发起进攻，但却让 3 号英雄撤退。那么最终，因为 2 打 1 的局面，我方成功击败对方英雄，获得了 10 分的奖励分（Reward），那么我们该怎样为我方的这 3 个英雄进行奖励分配？

在上面案例中，我们很明显能看出，在人数占优势的情况下，算法选择让 1 号和 2 号英雄一起发起进攻是一次正确的尝试，而让 3 号英雄尝试撤退显然就不那么明智了。由于对 1 号和 2 号的正确决策，使得整个指挥策略得到了正向的奖励分（Positive Reward），但显然我们不能直接将这个正向奖励分同时应用到这 3 个英雄上。

我们希望被正确决策的英雄（1 号和 2 号）获得较高的奖励分，而被错误决策的英雄（3 号）获得负的惩罚分，即最后的期望得分可能为：1 号（8分），2 号（8分），3 号（-6分）。

三个英雄的得分总和加起来还是 10 分，只是每个英雄能够按照自己的实际情况获得对应的合理奖励分。

这就是 回报分配 的概念。

回报分配通常分为两种类型：自下而上类型和自上而下类型。

自上而下类型：这种类型通常指我们只能拿到一个团队的最终得分，而无法获得每一个 Agent 的独立得分，因此我们需要把团队回报（Team Reward）合理的分配给每一个独立的 Agent（Individual Reward），这个过程通常也叫 “独立回报分配”（Individual Reward Assign）。上述例子就属于这种类型，典型的代表算法为 COMA算法。
自下而上类型：另外一种类型恰恰相反，指当我们只能获得每个 Agent 的独立回报（Individual）时，如何使得整个团队的团队得分（Team Reward）最大化。

QMIX 算法解决的是上述第二种类型的问题，即，在获得各 Agent 的独立回报的情况下，如何使得整个团队的团队收益最大化问题。

2. QMIX 怎样解决团队收益最大化问题（Method）

2.1 算法大框架 —— 基于 AC 框架的 CTDE（Centralized Training Distributed Execution）模式

多智能体强化学习（MARL）训练中面临的最大问题是：训练阶段和执行阶段获取的信息可能存在不对等问题。即，在训练的时候我们可以获得大量的全局信息（事实证明，只有获取足够的信息模型才能被有效训练）。

但在最终应用模型的时候，我们是无法获取到训练时那么多的全局信息的，因此，人们提出两个训练网络：一个为中心式训练网络（Critic），该网络只在训练阶段存在，获取全局信息作为输入并指导 Agent 行为控制网络（Actor）进行更新；另一个为行为控制网络（Actor），该网络也是最终被应用的网络，在训练和应用阶段都保持着相同的数据输入。

AC 算法的应用非常广泛，QMIX 在设计时同样借鉴了 AC 的 “中心式网络” 和 “分布式执行器” 的想法，整个网络包含了 Mixing Network（类比 Critic 网络）和 Agent RNN Network（类比 Actor 网络），整个网络架构图如下所示：

下面我们分别来看看 Mixing Network 和 RNN Network 的详细设计。

2.2 Agent RNN Network

QMIX 中每一个 Agent 都由 RNN 网络控制，在训练时你可以为每一个 Agent 个体都训练一个独立的 RNN 网络，同样也可以所有 Agent 复用同一个 RNN 网络，这取决于你自己的设计。

RNN 网络一共包含 3 层，输入层（MLP）→ 中间层（GRU）→ 输出层（MLP），实现代码如下：

class RNN(nn.Module):

    # 所有 Agent 共享同一网络, 因此 input_shape = obs_shape + n_actions + n_agents（one_hot_code）
    def __init__(self, input_shape, args):
        super().__init__()

        self.fc1 = nn.Linear(input_shape, args.rnn_hidden_dim)
        self.rnn = nn.GRUCell(args.rnn_hidden_dim, args.rnn_hidden_dim)     # GRUCell(input_size, hidden_size)
        self.fc2 = nn.Linear(args.rnn_hidden_dim, args.n_actions)

    def forward(self, obs, hidden_state):
        x = F.relu(self.fc1(obs))
        h_in = hidden_state.reshape(-1, self.args.rnn_hidden_dim)
        h = self.rnn(x, h_in)                # GRUCell 的输入要求（current_input, last_hidden_state）
        q = self.fc2(h)                      # h 是这一时刻的隐状态，用于输到下一时刻的RNN网络中去，q 是真实行为Q值输出
        return q, h