【论文笔记】多智能体强化学习值分解基础论文5篇

zhengdao9906

已于 2022-07-11 15:41:05 修改

阅读量4.4k

点赞数 2

分类专栏：知识笔记论文笔记文章标签：强化学习算法

于 2022-04-14 20:17:17 首次发布

本文链接：https://blog.csdn.net/Xixo0628/article/details/124180013

版权

知识笔记同时被 2 个专栏收录

32 篇文章

订阅专栏

论文笔记

18 篇文章

订阅专栏

本文介绍了多智能体强化学习中的五个经典算法：IQL、COMA、VDN、QMIX和QTRAN。这些算法针对合作与竞争环境，通过不同的方法解决奖励分配和信用归因问题。IQL展示了独立Q-learning的有效性，COMA引入了反事实基线，VDN和QMIX通过分解Q值实现合作，而QTRAN则尝试直接学习全局Q值，放宽了限制。这些工作为多智能体强化学习提供了重要的理论基础和发展方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- 引子
- IQL
- COMA
- VDN
- QMIX
- QTRAN
- 总结

引子

值分解可以说是解决多智能体强化学习的重要手段之一，本文主要涉及IQL、COMA、VDN、QMIX、QTRAN这五篇最经典的论文。

本文大致介绍每种方法最核心的思想，具体细节请读原文。

IQL

Multiagent Cooperation and Competition with Deep Reinforcement Learning, 2015

本文主要是基于Pong这个游戏环境，通过修改agent的收益，说明合作型agent独立地进行各自的Q-learning，依然可以有不错的效果。

在这里插入图片描述

最上面的收益矩阵是原本游戏的收益矩阵，每当错过球时，对方得分自己扣分，是完全竞争型的博弈。当每次失球时，如果双方都获得-1，就是矩阵2，这时是一个完全合作的博弈，双方都希望小球尽可能保持一直被接到。

介于两种情况之间的就是矩阵3，对应的就是 ρ∈(-1,1),这是混合型的博弈。

IQL发现，在不修改除了reward外的任何参数、细节，agent都能取得不错的成绩。这说明IQL可以作为多智能体强化学习的baseline。

COMA

Counterfactual Multi-Agent Policy Gradients, 2017

使用一个集中式critic网络，在训练的过程中可以获取所有智能体的信息；
采用反事实基线（counterfactual baseline）来解决信用分配的问题；
Critic网络要能够对反事实基线进行高效的计算。
在这里插入图片描述
红色部分是只有在训练时才会被用到的，因为实际执行时，每个agent都是拿不到全局信息的。这也是CTDE（中心化训练、去中心化执行）方法的早期成果。

VDN

Value-Decomposition Networks For Cooperative Multi-Agent Learning，2017

VDN算是大名鼎鼎的QMIX算法的前身。
在这里插入图片描述
VDN算法强调的是把总的Q相信分解为多个Q之和，每个Q对应每个智能体的动作价值，也就是：

这种会导致一个结果，那就是这样累计求和的Q可能没有具体的意义、吃大锅饭导致有agent划水之类的结果。这些问题在QMIX中得到了比较好的解决。

QMIX

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning， ICML2018
在这里插入图片描述
由于 VDN没有尽可能利用集中式训练的优势，忽略了学习期间可用的任何额外状态信息，因此 QMIX 在近似𝑄𝑡𝑜𝑡𝑎𝑙(𝒔, 𝒖)时额外使用了全局状态𝒔，这样就可以基于全局状态𝒔进行训练，而不是像 VDN 那样仅仅拿𝑄1, … , 𝑄𝑁去训练。 QMIX 的 Loss 函数和 VDN 一样，还是使用 DQN 那一套的 TD-error 来训练。

在中间网络中，每个agent都用GRU结合历史数据输出个人的动作价值，将每个Q值输入Mixing Network，得到Qtot。其中Mixing Network 的参数由St结合单层超网络得到。

这里放一下QMIX 最经典的约束条件：
在这里插入图片描述

也就是总Q关于每个agent的偏导都必须是正的。也就是，对于每个agent来说，追求自身收益的最大化是没有错误的（都对全局有不小于0的贡献）。

QTRAN

QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement learning, ICML2019

QTRAN是相对复杂一点的论文，它在QMIX的理论上做了改进，但因为实际情况中的各种约束，导致最终实际效果不好。我们来看一下。

前面还说到 QMIX 在近似𝑄𝑡𝑜𝑡𝑎𝑙(𝒔, 𝒖)时额外使用了全局状态𝒔，这样就可以
基于全局状态𝒔进行训练。但是如果直接将𝒔和[𝑄1, … , 𝑄𝑁]一起输入到神经网络𝑓
去得到𝑄𝑡𝑜𝑡𝑎𝑙，由于我们前面限制了𝑓中的参数是非负的，但这会对𝑄𝑡𝑜𝑡𝑎𝑙和𝒔的关系进行不必要的限制，因为我们只希望局部最优动作就是全局最优动作。QTRAN 聚焦于释放累加性和单调性的限制，去分解所有可分解的任务。其的思想在于只要保证个体最优动作𝑢̅和联合最优动作𝑢^∗是相同的。

QTRAN 认为既然 VDN 和 QMIX 是通过累加或者单调近似得到的𝑄𝑡𝑜𝑡𝑎𝑙，那
么𝑄𝑡𝑜𝑡𝑎𝑙就很有可能与真实的𝑄𝑡𝑜𝑡𝑎𝑙 ^∗ 相差很远，那我不如直接去学习一个真实的
𝑄𝑡𝑜𝑡𝑎𝑙 ^∗ 。

在这里插入图片描述
这里的Q_jt就是学习得到的，介于各个agent的收益Q之和和实际局面价值之间的联合补偿。这样就建立了局部Q和全局Q之间的联系。