MADDPG 你想要的

一. Why MADDPG?

                                          多智能体层面传统的强化学习方法缺陷:

1、Q-learning无法适应环境不稳定的优化问题。即最优Q值会随着时间变化的问题,这会使Q-learning学习变得困难,此外环境的不稳定还会导致Q-learning的batch memory方法失效,进一步导致Deep Q Network的功能也变差。而在多智能体学习环境中,每次其他智能体的行为都是不同的,因此会造成环境不稳定

2、Policy-Gradient,在多智能体环境中,每个智能体的轨迹估计的梯度具有较高的相关性,即其他智能体的行为也会对特定智能体的结果产生影响,从而使梯度估计产生误差。(如果代理之间可交互,Policy Gradient还是可以用,但是交互计算量会随着代理数量变多而爆炸增长,一般来说,需要加入的参数是其他智能体的policy parameters。但是即使信息共享,也只是适用于在合作层面上的问题,在多智能体竞争层面表现很差)

二. Prerequisite in MADDPG

                                                 多传感器训练时的要求:

1、每个智能体最终的policy只能使用自己所能都获取到的信息(不能使用全局信息)

2、环境的动态性不可微分

3、学习过程中policy之间可以进行信息交互,但是该交互依然是不可微分的

三. How MADDPG

必须拿出那张著名的图:

 

1、集中式训练,分布式执行:

集中式训练:在训练时,每个agent可以获取到除了自己所能观测到的信息的额外信息,包括其他agent的观测信息和行为。通过这种方式,agent就可以考虑到全局的状态。

分布式执行:在训练环节之后,每个agent智能通过自己的网络和自己的observation进行训练.

2、具体在Policy-Gradient上做的手脚

        对于使用了Policy-Gradient的Actor,其里面参数的更新方法为:

这里面和我们的Policy-Gradient唯一的区别在于,Policy-Gradient中直接就是一个Reward,但是这里的Q实际上是Critic相关的输出(td-error),并且这个输出和所有的智能体的行为,当前环境都是相关的,即,每个智能体都配备有一个专门负责其学习的Critic网络。当加入determine之后,该式子会变成:

其实意思就是说,determine的网络不会再犹豫了,这里的第二个参数其实就是Critic的Eval网络传给Actor的Eval的参数。

此外,Critic网络的更新的机理和Q-Learning一样,毕竟Critic是以值为基础的嘛:

值得注意的是,从上式可见这个网络作为输入的参数是所有智能体的action,所有智能体观测值。Critic相当于是一个考虑了全局的指导网络

 

 

 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值