多智能体强化学习-COMA

最新推荐文章于 2022-11-04 15:19:52 发布

开飞机的贝塔儿

最新推荐文章于 2022-11-04 15:19:52 发布

阅读量2.8k

点赞数 2

分类专栏：强化学习多智能体 COMA 文章标签：机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dmj3214/article/details/107793934

版权

多智能体强化学习-COMA

论文全称：Counterfactual Multi-Agent Policy Gradients
论文地址:https://arxiv.org/abs/1705.08926v1

摘要

协作多智能体系统可以很自然地用于建模许多现实世界的问题，例如网络分组路由或自主车辆的协调。因此，需要新的强化学习方法来有效地学习这种系统的分散策略。为此，提出了一种新的多智能体参与者批评方法，称为反事实多智能体策略梯度(COMA)。COMA使用一个集中的批评家来估计Q函数，并使用分散的参与者来优化代理的策略。此外，为了解决多代理信用分配的挑战，它使用了一个反事实的基线，将单个代理的行为边缘化，同时保持其他代理的行为不变。COMA还使用了一种临界表示法，允许在一次向前传球中有效地计算反事实基线。

一、介绍

多智能体学习中存在的问题有：
1）智能体的联合动作空间随着智能体的数量呈指数级增长。
2）多智能体信用分配。
为了解决上面的问题，提出了COMA。

二、COMA方法

COMA三个主要思想：1）批评家的中心化，2）反事实基线的使用，3）允许对基线进行有效评估的批评家表示法的使用。

2.1 集中批评家

COMA使用了一个集中的批评家。批评只在学习中使用，而在执行过程中只需要演员。由于学习是集中的，因此可以使用一个集中的批评家，即以联合行动和所有可用的状态信息为条件，而每个代理人的政策条件仅限于其自身的行动观察历史。实现了参数共享。<

最低0.47元/天解锁文章

开飞机的贝塔儿

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
多智能体强化学习-COMA

多智能体强化学习-COMA论文全称：Counterfactual Multi-Agent Policy Gradients论文地址:https://arxiv.org/abs/1705.08926v1摘要协作多智能体系统可以很自然地用于建模许多现实世界的问题，例如网络分组路由或自主车辆的协调。因此，需要新的强化学习方法来有效地学习这种系统的分散策略。为此，提出了一种新的多智能体参与者批评方法，称为反事实多智能体策略梯度(COMA)。COMA使用一个集中的批评家来估计Q函数，并使用分散的参与者来优化代
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。