Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 读书笔记

1. 介绍

       本文主要是将深度强化学习应用于多智能的控制。作者提出了一种演员评论方法的改进方法,该方法考虑了其他代理人的行动策略。此外,他们引入了一种培训方案,该方案综合考虑每个代理策略,以产生更强大的多代理策略,并能够成功地学习需要复杂的多智能体协调的政策

2. 核心

这篇文章我阅读了源码,它的网络架构如图1所示

 

图1  MADDPG

        从图中可以看出主要包含了Q和P网络,这两个网络是共同同时训练的。看到这里可能会有一个疑问,就是Q网络和P网络在训练时分别扮演的角色是什么,这个问题先按下不表。首先介绍一下网络,state_i或者action_i是智能体i的状态和动作,可以看出是所有的智能体的动作执行网络都是同一个,最终的训练结果也是为了得到这一段模型,即P网络中的前一部分全连接层。P网络的后一部分是类似于critic的作用,不同的是它使用了所有的智能体信息;Q网络是整体地训练。那么按理来说P network就已完成了整个actor-critic的工作了,为什么还需要Q network呢?

       为了解决这个问题,我们首先看一下MADDPG的算法描述

       通过观察我们发现,红色

  • 6
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值