文章目录
前言
ICLR2021拒了。这应该是第一个通过理论分析,描绘协作多智能体Q-learning中线性值分解的根本原理的文章,值得一看。
Introduction
尽管线性值分解的MARL算法在实验上取得了成功,但是理论上还没有很好的理解。由于其有限的表达复杂度,标准贝尔曼更新在线性值分解的联合动作值函数类中不是一个闭算子(设X,Y均为banach空间,T是 D ( T ) ⊂ X → Y D(T)\subset X\rightarrow Y D(T)⊂X→Y的线性算子。对于任意 x n ∈ D ( T ) x_n\in D(T) xn∈D(T),若由 x n → x , T x n → y x_n \rightarrow x, Tx_n\rightarrow y xn→x,Txn→y,可得 x ∈ D ( T ) , y = T x x\in D(T), y=Tx x∈D(T),y=Tx)。这种不完备性带来的近似误差被称作固有的贝尔曼误差(inherent bellman error),通常会导致Q-learning偏离到一个不期望的行为。作者开发了一个popular fitted Q-iteration的多智能体变体,并且对于他的实验性贝尔曼误差最小化导出了闭式解。
通过利用这个新颖的闭式解,这篇文章形式上揭露了两个有趣的观点:1)学习线性值分解隐式地实现了经典的多智能体信度分配方法,反事实的差异奖励,这也就产生了与COMA的关系;2)线性值分解的多智能体Q-learning潜在地遭受来自随机初始化的无界发散的危险。on-policy的数据分布或更丰富发Q函数类可以分别提供局部或者全局的收敛保证。
多智能体马尔科夫决策过程(MMDP)
MMDP是Dec-POMDP的一个特殊情况,可以定义为一个元组 M = ⟨ N , S , A , P , r , γ ⟩ \mathcal{M}=\langle \mathcal{N,S,A},P,r,\gamma\rangle M=⟨N,S,A,P,r,γ⟩,其中 N ≡ { 1 , ⋯ , n } \mathcal{N}\equiv\{1,\cdots,n\} N≡{ 1,⋯,n} 是一个agent的有限集, S \mathcal{S} S是一个全局状态的有限集, A \mathcal{A} A是一个独立agent的动作空间,联合动作 KaTeX parse error: Undefined control sequence: \in at position 10: \textbf{a\̲i̲n̲ ̲A}\equiv \mathc… 是独立动作 [ a i ] i = 1 n [a_i]_{i=1}^n [ai]i=1n 的集。在每个时间步 t t t,联合动作 a t \textbf{a}_t at 会产生一个转移 s t + 1 ∼ P ( ⋅ ∣ s t , a t ) s_{t+1}\sim P(\cdot|s_t,\textbf{a}_t) st+1∼P(⋅∣st,at),一个全局奖赏信号 r ( s t , a t ) r(s_t,\textbf{a}_t) r(st,at), γ ∈ [ 0 , 1 ) \gamma\in[0,1) γ∈[0,1)是折扣因子。MARL的目标是构建最大化期望累加奖赏的联合策略。最优的使用上标*表示。
CTDE
作者排除了局部可观察性的考虑,所以就不区分状态与观察。VDN所采用的可加性约束是IGM约束的充分条件,这种线性分解结构不是必要条件,并且由于线性数量的独立函数不能表示跟agent数量指数相关的联合动作值函数类,导致一个受限的联合动作值函数类。
Fitted Q-iteration for multi-agent Q-learning
Q t o t Q_{tot} Qtot 是全局但是因式分解的值函数,可以被因式分解为独立值函数 [ Q i ] i = 1 n [Q_i]_{i=1}^n [Qi]i=1n 的函数,另一方面作者使用 [ Q i ] i = 1 n [Q_i]_{i=1}^n [Qi]i=1n 表示 Q t o t Q_{tot} Qtot。在MMDP设置,共享的奖赏信号只能用来监督联合动作值函数 Q t o t Q_{tot} Qtot 的训练,贝尔曼最优性算子 T \mathcal{T} T 就能改为:
( T Q ) t o t ( s , a ) = r ( s , a ) + γ E s ′ ∼ P ( s ′ ∣ s , a ) [ max a ∈ A Q t o t ( s ′ , a ′ ) ] (\mathcal{T}Q)_{tot}(s,\textbf{a})=r(s,\textbf{a})+\gamma \mathbb{E} _{s'\sim \it{P}(s'|s,\textbf{a})}\left[\max \limits_{\textbf{a}\in\textbf{A}}Q_{tot}(s',\textbf{a}')\right] (TQ)tot(s,a)=r(s,a)+γEs′∼P