Towards Understanding Linear Value Decomposition in Cooperative Multi-Agent Q-Learning 笔记

本文深入探讨了线性值分解在多智能体Q-learning中的理论基础,揭示了其隐含的信度分配机制,并分析了学习稳定性和收敛性问题。研究发现,线性值分解在离线训练中可能面临发散风险,但在线性值分解的多智能体Q-learning中,可以隐式实现经典信度分配方法,与COMA有相似之处。此外,通过增强表达能力和使用on-policy数据,可以提高学习的稳定性和收敛性。
摘要由CSDN通过智能技术生成

前言

ICLR2021拒了。这应该是第一个通过理论分析,描绘协作多智能体Q-learning中线性值分解的根本原理的文章,值得一看。

Introduction

尽管线性值分解的MARL算法在实验上取得了成功,但是理论上还没有很好的理解。由于其有限的表达复杂度,标准贝尔曼更新在线性值分解的联合动作值函数类中不是一个闭算子(设X,Y均为banach空间,T是 D ( T ) ⊂ X → Y D(T)\subset X\rightarrow Y D(T)XY的线性算子。对于任意 x n ∈ D ( T ) x_n\in D(T) xnD(T),若由 x n → x , T x n → y x_n \rightarrow x, Tx_n\rightarrow y xnx,Txny,可得 x ∈ D ( T ) , y = T x x\in D(T), y=Tx xD(T),y=Tx)。这种不完备性带来的近似误差被称作固有的贝尔曼误差(inherent bellman error),通常会导致Q-learning偏离到一个不期望的行为。作者开发了一个popular fitted Q-iteration的多智能体变体,并且对于他的实验性贝尔曼误差最小化导出了闭式解。

通过利用这个新颖的闭式解,这篇文章形式上揭露了两个有趣的观点:1)学习线性值分解隐式地实现了经典的多智能体信度分配方法,反事实的差异奖励,这也就产生了与COMA的关系;2)线性值分解的多智能体Q-learning潜在地遭受来自随机初始化的无界发散的危险。on-policy的数据分布或更丰富发Q函数类可以分别提供局部或者全局的收敛保证。

多智能体马尔科夫决策过程(MMDP)

MMDP是Dec-POMDP的一个特殊情况,可以定义为一个元组 M = ⟨ N , S , A , P , r , γ ⟩ \mathcal{M}=\langle \mathcal{N,S,A},P,r,\gamma\rangle M=N,S,A,P,r,γ,其中 N ≡ { 1 , ⋯   , n } \mathcal{N}\equiv\{1,\cdots,n\} N{ 1,,n} 是一个agent的有限集, S \mathcal{S} S是一个全局状态的有限集, A \mathcal{A} A是一个独立agent的动作空间,联合动作 KaTeX parse error: Undefined control sequence: \in at position 10: \textbf{a\̲i̲n̲ ̲A}\equiv \mathc… 是独立动作 [ a i ] i = 1 n [a_i]_{i=1}^n [ai]i=1n 的集。在每个时间步 t t t,联合动作 a t \textbf{a}_t at 会产生一个转移 s t + 1 ∼ P ( ⋅ ∣ s t , a t ) s_{t+1}\sim P(\cdot|s_t,\textbf{a}_t) st+1P(st,at),一个全局奖赏信号 r ( s t , a t ) r(s_t,\textbf{a}_t) r(st,at) γ ∈ [ 0 , 1 ) \gamma\in[0,1) γ[0,1)是折扣因子。MARL的目标是构建最大化期望累加奖赏的联合策略。最优的使用上标*表示。

CTDE

作者排除了局部可观察性的考虑,所以就不区分状态与观察。VDN所采用的可加性约束是IGM约束的充分条件,这种线性分解结构不是必要条件,并且由于线性数量的独立函数不能表示跟agent数量指数相关的联合动作值函数类,导致一个受限的联合动作值函数类。

Fitted Q-iteration for multi-agent Q-learning

Q t o t Q_{tot} Qtot 是全局但是因式分解的值函数,可以被因式分解为独立值函数 [ Q i ] i = 1 n [Q_i]_{i=1}^n [Qi]i=1n 的函数,另一方面作者使用 [ Q i ] i = 1 n [Q_i]_{i=1}^n [Qi]i=1n 表示 Q t o t Q_{tot} Qtot。在MMDP设置,共享的奖赏信号只能用来监督联合动作值函数 Q t o t Q_{tot} Qtot 的训练,贝尔曼最优性算子 T \mathcal{T} T 就能改为:
( T Q ) t o t ( s , a ) = r ( s , a ) + γ E s ′ ∼ P ( s ′ ∣ s , a ) [ max ⁡ a ∈ A Q t o t ( s ′ , a ′ ) ] (\mathcal{T}Q)_{tot}(s,\textbf{a})=r(s,\textbf{a})+\gamma \mathbb{E} _{s'\sim \it{P}(s'|s,\textbf{a})}\left[\max \limits_{\textbf{a}\in\textbf{A}}Q_{tot}(s',\textbf{a}')\right] (TQ)tot(s,a)=r(s,a)+γEsP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值