阅读QTRAN:Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning

最新推荐文章于 2023-06-29 10:29:26 发布

有点可爱的小学僧

最新推荐文章于 2023-06-29 10:29:26 发布

阅读量1.8k

点赞数 2

分类专栏：多智能体强化学习

本文链接：https://blog.csdn.net/weixin_42426834/article/details/109036900

版权

多智能体强化学习专栏收录该内容

6 篇文章 15 订阅

订阅专栏

写在前面：这篇文章我也是前前后后看了几遍，还在网上找了一些资料，但是感觉始终也没太看明白，就先把目前的理解写在这里，等以后有了新的理解再更新。要强调一点的是，这篇文章我刚读的时候是真的超级懵，但是不放弃偶尔就读偶尔就读，再结合别人的理解确实还是会有逐渐深入的理解的，所以以后遇到难的文章也不要丧气，平常心慢慢来（当然主要可能还是我的水平不行，读起来才这么难，hh）

题目作者

在这里插入图片描述
ICML 19，作者的单位是KAIST，韩国科学技术院，韩国比较好的一个大学，这个组在多智能体强化学习上也是颇多产出的。

摘要

这篇文章是延续VDN,QMIX的工作，也是基于值分解的思路来解决多智能体强化学习合作问题。文章提出虽然VDN,QMIX都是IGM（后文解释）的充分条件，但是在具体的实现上分别引入了 $Q_i,Q_{tot}$ 之间的加性、单调性假设限制，从而只能解决一部分的多智能体合作问题，对于一些可分解但是 $Q_i,Q_{tot}$ 之间并不满足加和或者单调性性质的问题，就不能很好解决了。对此，本文中提出了一种新的分解方法，QTRAN，满足了IGM条件，而且并没有引入其他的假设限制，因此适用于更加广泛的问题。

方法

作者证明了，只要 $Q_i]$ 和 $Q_{jt}$ 之间满足如下关系，则 $Q_i]$ 对于 $Q_{jt}$ 满足IGM：

在这里插入图片描述
符号说明：

根据这个定理，我们可以把 $Q_i]$ 的求解/或者说 $Q_{jt}$ 的分解问题建模成一个优化问题，决策变量就是 $Q_i]$ ，约束条件就是定理1，也就是当 $u=\bar{u}$ 时，定理1中左式要尽可能靠近0，当 $\neq \bar{u}$ 时，左式要为正，这样优化出来的 $Q_i]$ 对于 $Q_{jt}$ 满足就IGM了。

在具体的实现中，QTRAN的说明图如下：
在这里插入图片描述
可以看出，对于定理一的左式， $Q_i$ 是用网络表示的，同时利用各个智能体的状态信息 $h_i(t_i,u_i)$ 的联合去估计了 $V_{jt},Q_{jt}$ ，算法的loss定义为：

$L_{opt},L_{nopt}$ 分别是满足定理一的约束，因为这里的 $Q_{jt}$ 是使用网络估计的，因此还需要借助真实的奖励信息r来算一个TD-Loss
另外其他的一些说明：
在这里插入图片描述

当然论文里实现了两个版本的QTRAN,QTRAN-base和QTRAN-alt，后者的提出是因为作者发现当 $\neq \bar{u}$ 时，定理一中的约束太松了导致训练很容易不稳定，因此提出了一个更紧的约束（道理是这样的但其实我还没太仔细看）。

写在后面

这篇文章目前我就读到这里了，但是其实这里我还有一个迷惑。在文章中可以推出 $V_{jt}$ 需要是这个形式：在这里插入图片描述
但是在实际的算法中， $V_{jt}$ 是用网络估计出来的，也不是很明确这个估计出来的值到底是表示什么，也没有别的东西来直接约束它，这样是合理的吗？

另外好多人说QTRAN的算法理论性很好，但是后续在求解的时候引入了很多近似、松弛，使得算法的实际性能不是很好，这一点我还没有具体体会和认识到，还需要继续学习。

最后推荐一个知乎的文章，对值分解这块讲得还挺好的，尤其是QTRAN的推导,链接在这里:知乎文章，这篇文章里说 $V_{jt}$ 可以先是一个定义 $Q_{jt},\sum Q_i$ 之间差距的量，然后只要满足定理一的约束，那么 $V_{jt}$ 就是上面这个形式，这样理解好像怎么定义 $V_{jt}$ 都可以了，先暂定这样吧。

有点可爱的小学僧

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
阅读QTRAN:Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning

写在前面：这篇文章我也是前前后后看了几遍，还在网上找了一些资料，但是感觉始终也没太看明白，就先把目前的理解写在这里，等以后有了新的理解再更新。要强调一点的是，这篇文章我刚读的时候是真的超级懵，但是不放弃偶尔就读偶尔就读，再结合别人的理解确实还是会有逐渐深入的理解的，所以以后遇到难的文章也不要丧气，平常心慢慢来（当然主要可能还是我的水平不行，读起来才这么难，hh）目录题目作者摘要相关工作介绍方法写在后面题目作者作者的单位是KAIST，韩国科学技术院，韩国比较好的一个大学，这个组在多智能体强化学习上也
复制链接

扫一扫