Qatten: A General Framework for Cooperative Multiagent Reinforcement Learning 笔记

强殖装甲凯普

已于 2022-02-25 18:51:29 修改

阅读量638

点赞数

分类专栏：论文笔记文章标签：深度学习机器学习神经网络强化学习

于 2020-12-15 17:03:05 首次发布

本文链接：https://blog.csdn.net/qq_38163755/article/details/111206108

版权

论文笔记专栏收录该内容

35 篇文章 2 订阅

订阅专栏

文章目录

前言
Theoretical Analysis of Global and Individual Q-values
The Practical Implementation of Qatten

前言

还不知道发在了哪里。该文章认为之前的方法是强加了 $Q_{tot}$ 和 $Q^i$ 之间的某种假设，缺少理论基础。除此之外，他们在将个体 $Q^i$ 转为 $Q_{tot}$ 时，没有明确地考虑个体对整个系统agent级别的影响。

Theoretical Analysis of Global and Individual Q-values

首先联合动作值函数 $Q_{tot}(s,\textbf{a})$ ，应用隐函数定理，也就将其看做了关于 $Q^i$ 的函数。作者假设没有独立的agent与整个group不相关，因为独立的agent不应该是group的成员，应该当做独立的agent去优化其策略。也就是说 $Q^i$ 的变化会影响 $Q_{tot}$ ，所以偏导不为0：

$\frac{\partial Q_{tot}}{\partial Q^i} \neq 0$

作者分析接近动作空间中最大值点时， $Q_{tot}$ 和 $Q^i$ 的局部行为，假设状态是固定的，由于最值点 $a_o$ 处梯度会消失，所以：

$\frac{\partial Q_{tot}}{\partial a^i}=\frac{\partial Q_{tot}}{\partial Q^i}\frac{\partial Q^i}{\partial a^i}=0$

所以

$\frac{\partial Q^i}{\partial a^i}(a_0)=0$

然后进行泰勒二元展开：
$Q^i(a^i)=\alpha_i+\beta_i(a^i-a^i_o)^2+o((a^i-a^i_o)^2)$
然后我们就得到了接近最优点 $\overrightarrow{a_o}$ 时的非线性组合，定理为：

假设动作空间是连续的，没有独立agent，存在常量 $c(s),\lambda_i(s)$ ，使得 $Q_{tot}$ 的局部扩展满足：
$Q_{tot}(s,\textbf{a})\approx c(s)+\sum\limits_{i,h}\lambda_{i,h}(s)Q^i(s,a^i)$
$\lambda_{i,h}$ 是所有 h 阶偏导 $\frac{\partial^h Q_{tot}}{\partial Q^{i1}\cdots\partial Q^{ih}}$ 的线性函数，并且在 h 超线性衰减。也正因此，其包含了非线性信息，比如 $\lambda_{i,2}$ 对应二阶项 $Q^iQ^j$ 。

这个定理的证明解读可以参考：https://zhuanlan.zhihu.com/p/151347887

The Practical Implementation of Qatten

作者使用self-attention，用多头来表示多阶。
在这里插入图片描述
关于self-attention的分析可以参考 ICLR2020 的：Are Transformers universal approximators of sequence-to-sequence functions?

强殖装甲凯普

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Qatten: A General Framework for Cooperative Multiagent Reinforcement Learning 笔记

文章目录前言Theoretical Analysis of Global and Individual Q-valuesThe Practical Implementation of Qatten前言还不知道发在了哪里。该文章认为之前的方法是强加了 QtotQ_{tot}Qtot 和 QiQ_iQi 之间的某种假设，缺少理论基础。除此之外，他们在将个体 QiQ^iQi 转为 QtotQ_{tot}Qtot 时，没有明确地考虑个体对整个系统agent级别的影响。Theoretical Analys
复制链接

扫一扫