多智能体强化学习-COMA
论文全称:Counterfactual Multi-Agent Policy Gradients
论文地址:https://arxiv.org/abs/1705.08926v1
摘要
协作多智能体系统可以很自然地用于建模许多现实世界的问题,例如网络分组路由或自主车辆的协调。因此,需要新的强化学习方法来有效地学习这种系统的分散策略。为此,提出了一种新的多智能体参与者批评方法,称为反事实多智能体策略梯度(COMA)。COMA使用一个集中的批评家来估计Q函数,并使用分散的参与者来优化代理的策略。此外,为了解决多代理信用分配的挑战,它使用了一个反事实的基线,将单个代理的行为边缘化,同时保持其他代理的行为不变。COMA还使用了一种临界表示法,允许在一次向前传球中有效地计算反事实基线。
一、介绍
多智能体学习中存在的问题有:
1)智能体的联合动作空间随着智能体的数量呈指数级增长。
2)多智能体信用分配。
为了解决上面的问题,提出了COMA。
二、COMA方法
COMA三个主要思想:1)批评家的中心化,2)反事实基线的使用,3)允许对基线进行有效评估的批评家表示法的使用。
2.1 集中批评家
COMA使用了一个集中的批评家。批评只在学习中使用,而在执行过程中只需要演员。由于学习是集中的,因此可以使用一个集中的批评家,即以联合行动和所有可用的状态信息为条件,而每个代理人的政策条件仅限于其自身的行动观察历史。实现了参数共享。<