多智能体强化学习-COMA

多智能体强化学习-COMA

论文全称:Counterfactual Multi-Agent Policy Gradients
论文地址:https://arxiv.org/abs/1705.08926v1

摘要

协作多智能体系统可以很自然地用于建模许多现实世界的问题,例如网络分组路由或自主车辆的协调。因此,需要新的强化学习方法来有效地学习这种系统的分散策略。为此,提出了一种新的多智能体参与者批评方法,称为反事实多智能体策略梯度(COMA)。COMA使用一个集中的批评家来估计Q函数,并使用分散的参与者来优化代理的策略。此外,为了解决多代理信用分配的挑战,它使用了一个反事实的基线,将单个代理的行为边缘化,同时保持其他代理的行为不变。COMA还使用了一种临界表示法,允许在一次向前传球中有效地计算反事实基线。

一、介绍

多智能体学习中存在的问题有:
1)智能体的联合动作空间随着智能体的数量呈指数级增长。
2)多智能体信用分配。
为了解决上面的问题,提出了COMA。

二、COMA方法

COMA三个主要思想:1)批评家的中心化,2)反事实基线的使用,3)允许对基线进行有效评估的批评家表示法的使用。

2.1 集中批评家

COMA使用了一个集中的批评家。批评只在学习中使用,而在执行过程中只需要演员。由于学习是集中的,因此可以使用一个集中的批评家,即以联合行动和所有可用的状态信息为条件,而每个代理人的政策条件仅限于其自身的行动观察历史。实现了参数共享。<

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值