Towards Understanding Linear Value Decomposition in Cooperative Multi-Agent Q-Learning 笔记

最新推荐文章于 2024-07-10 10:33:55 发布

强殖装甲凯普

最新推荐文章于 2024-07-10 10:33:55 发布

阅读量546

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/qq_38163755/article/details/109724418

版权

本文深入探讨了线性值分解在多智能体Q-learning中的理论基础，揭示了其隐含的信度分配机制，并分析了学习稳定性和收敛性问题。研究发现，线性值分解在离线训练中可能面临发散风险，但在线性值分解的多智能体Q-learning中，可以隐式实现经典信度分配方法，与COMA有相似之处。此外，通过增强表达能力和使用on-policy数据，可以提高学习的稳定性和收敛性。

摘要由CSDN通过智能技术生成

文章目录

前言
Introduction
使用线性值分解的多智能体Q-learning
- Multi-agent Fitted Q-Iteration with Linear Value Decomposition(FQI-LVD)
- LVD中的隐式信度分配
提高值分解的学习稳定性
实验分析
- 闭式解更新规则与基于深度学习的实验结果一致吗
- 线性值分解在离线训练中受限吗

前言

ICLR2021拒了。这应该是第一个通过理论分析，描绘协作多智能体Q-learning中线性值分解的根本原理的文章，值得一看。

Introduction

尽管线性值分解的MARL算法在实验上取得了成功，但是理论上还没有很好的理解。由于其有限的表达复杂度，标准贝尔曼更新在线性值分解的联合动作值函数类中不是一个闭算子（设X，Y均为banach空间，T是 $D(T)\subset X\rightarrow Y$ 的线性算子。对于任意 $x_n\in D(T)$ ，若由 $x_n \rightarrow x, Tx_n\rightarrow y$ ，可得 $x\in D(T), y=Tx$ ）。这种不完备性带来的近似误差被称作固有的贝尔曼误差（inherent bellman error），通常会导致Q-learning偏离到一个不期望的行为。作者开发了一个popular fitted Q-iteration的多智能体变体，并且对于他的实验性贝尔曼误差最小化导出了闭式解。

通过利用这个新颖的闭式解，这篇文章形式上揭露了两个有趣的观点：1）学习线性值分解隐式地实现了经典的多智能体信度分配方法，反事实的差异奖励，这也就产生了与COMA的关系；2）线性值分解的多智能体Q-learning潜在地遭受来自随机初始化的无界发散的危险。on-policy的数据分布或更丰富发Q函数类可以分别提供局部或者全局的收敛保证。

多智能体马尔科夫决策过程（MMDP）

MMDP是Dec-POMDP的一个特殊情况，可以定义为一个元组 $\mathcal{M}=\langle \mathcal{N,S,A},P,r,\gamma\rangle$ ，其中 $\mathcal{N}\equiv\{1,\cdots,n\}$ 是一个agent的有限集， $\mathcal{S}$ 是一个全局状态的有限集， $\mathcal{A}$ 是一个独立agent的动作空间，联合动作 $KaTeX parse error: Undefined control sequence: \in at position 10: \textbf{a\̲i̲n̲ ̲A}\equiv \mathc…$ 是独立动作 $a_i]_{i=1}^n$ 的集。在每个时间步 $t$ ，联合动作 $\textbf{a}_t$ 会产生一个转移 $s_{t+1}\sim P(\cdot|s_t,\textbf{a}_t)$ ，一个全局奖赏信号 $r(s_t,\textbf{a}_t)$ ， $\gamma\in[0,1)$ 是折扣因子。MARL的目标是构建最大化期望累加奖赏的联合策略。最优的使用上标*表示。

CTDE

作者排除了局部可观察性的考虑，所以就不区分状态与观察。VDN所采用的可加性约束是IGM约束的充分条件，这种线性分解结构不是必要条件，并且由于线性数量的独立函数不能表示跟agent数量指数相关的联合动作值函数类，导致一个受限的联合动作值函数类。

Fitted Q-iteration for multi-agent Q-learning

$Q_{tot}$ 是全局但是因式分解的值函数，可以被因式分解为独立值函数 $Q_i]_{i=1}^n$ 的函数，另一方面作者使用 $Q_i]_{i=1}^n$ 表示 $Q_{tot}$ 。在MMDP设置，共享的奖赏信号只能用来监督联合动作值函数 $Q_{tot}$ 的训练，贝尔曼最优性算子 $\mathcal{T}$ 就能改为：
$(\mathcal{T}Q)_{tot}(s,\textbf{a})=r(s,\textbf{a})+\gamma \mathbb{E} _{s'\sim \it{P}(s'|s,\textbf{a})}\left[\max \limits_{\textbf{a}\in\textbf{A}}Q_{tot}(s',\textbf{a}')\right]$