1. 介绍
本文主要是将深度强化学习应用于多智能的控制。作者提出了一种演员评论方法的改进方法,该方法考虑了其他代理人的行动策略。此外,他们引入了一种培训方案,该方案综合考虑每个代理策略,以产生更强大的多代理策略,并能够成功地学习需要复杂的多智能体协调的政策
2. 核心
这篇文章我阅读了源码,它的网络架构如图1所示
图1 MADDPG
从图中可以看出主要包含了Q和P网络,这两个网络是共同同时训练的。看到这里可能会有一个疑问,就是Q网络和P网络在训练时分别扮演的角色是什么,这个问题先按下不表。首先介绍一下网络,state_i或者action_i是智能体i的状态和动作,可以看出是所有的智能体的动作执行网络都是同一个,最终的训练结果也是为了得到这一段模型,即P网络中的前一部分全连接层。P网络的后一部分是类似于critic的作用,不同的是它使用了所有的智能体信息;Q网络是整体地训练。那么按理来说P network就已完成了整个actor-critic的工作了,为什么还需要Q network呢?
为了解决这个问题,我们首先看一下MADDPG的算法描述
通过观察我们发现,红色