多智能体强化学习论文——COMA

最新推荐文章于 2024-08-13 09:46:33 发布

条件反射104

最新推荐文章于 2024-08-13 09:46:33 发布

阅读量1.4k

点赞数 1

分类专栏：多智能体强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/qq_40317204/article/details/120014353

版权

存在的问题&研究动机&研究思路

遵循CTDE框架。是大规模多智能体训练的常见的范式，训练过程可以使用模拟器的全局状态信息，但是执行过程每个智能体只能依赖于自身的动作-观测值历史（常用循环神经网络来处理history）。
在协作的环境中，多智能体面临信誉分配的问题。联合动作产生的全局reward并不能让每个智能体很好的推断出自己对全局的贡献。
为了解决信誉分配问题，提出了反事实基准：固定其他智能体的动作，边缘化某个智能体的动作。
在agent之间传递梯度和参数共享，是两种常用于发挥集中式critic优势的方法。
对于使用参数共享的IAC，因为critic训练使用的是全局reward，因此对每个智能体不能很好的推断出自己对于全局reward的贡献度，当智能体数量变多的时候，梯度变得尤为noisy。因此才提出了使用counterfactual baseline。
反事实基准参考difference rewards：difference rewards的default action难以选择，并且需要额外的一套仿真，消耗过多计算资源。