MADDPG论文理解

最新推荐文章于 2025-03-29 08:53:14 发布

科研小fw

最新推荐文章于 2025-03-29 08:53:14 发布

阅读量4.4k

点赞数 13

分类专栏：强化学习文章标签：深度学习人工智能 python

本文链接：https://blog.csdn.net/qq_44812718/article/details/123472178

版权

强化学习专栏收录该内容

2 篇文章

订阅专栏

最近在研究多智能体深度强化学习方向方面的论文，想根据不同论文将自己的学习过程记录一下，最近看了MADDPG和COMA这两篇基于AC方法的文章，这篇主要记录下对于MADDPG论的理解。
MADDPG 针对合作竞争混合环境下的多智能体演员评论家算法
(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)
首先这是一篇17年发表在NISP上的论文，是基于DDPG针对多智能体环境下的改进，而DDPG又是基于经典AC算法解决不容易收敛问题提出的。

对于MADDPG来说，同样是解决的传统强化学习不适用于多智能体的应用环境下，这里我们重点关注一下它的三个主要贡献点

1、首先第一点，集中式训练分布式执行，指的是在训练过程中由critic集中式共享全局信息，执行过程中actor分布式获取局部信息（当前智能体的观察信息），在这里，每个智能体维持一个单独的critic和actor，如下图

2、其中因为critic需要共享全局信息，就要获取到其他智能体的策略信息，所以又引出了第二点贡献，提出估计其他智能体策略的方法

公式L表示的是代价函数，这里的

表示的就是智能体i对智能体j的策略估计，当代价函数取得最小值时，这时我们就可以认为Uij就是j的策略。
3、但是针对这种策略估计的方法来说可能会为了过度适应智能体的动作而制定出强有力的策略，也就是说可能会产生过拟合的情况，针对这一点，文章由提出了一个新方法，策略集合优化，也就是将一个策略划分成k个子策略集合的思想，每次从k个子策略中特定选取一个Pk进行执行