MARL算法笔记：COMA

最新推荐文章于 2024-09-10 21:24:57 发布

峻菌君

最新推荐文章于 2024-09-10 21:24:57 发布

阅读量1k

点赞数 3

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_44211389/article/details/123598440

版权

COMA

Counterfactual Multi-Agent Policy Gradients

keywords: Multi-agent AC method; 用counterfactual baseline解决信用度分配问题

1.方法总结:

在这里插入图片描述

IAC框架+一个优势函数+一个trick

先学习 $Q (s, u)$ , $s$ 是全局 $s t a t e$ , $u$ 是联合动作
counterfactual baseline方法
$A^a(s,u) = Q(s,u) - \sum_{{u'}^{a}}\pi^a({u'}^a|\tau^a)Q(s,({u}^{-a},{u'}^a))$
```
第一项表示：其他人不动，我现在这个动作有多好
第二项表示：其他人不动，我平均动作来看有多好。counterfactual baseline
```
一个trick：用efficient way来计算 $Q(s,({u}^{-a},{u'}^a))$

4. 用 $A^a(s,u)$ 来更新每个agent：
$\theta=\theta+\alpha\nabla_{\theta}log\pi_{\theta}A^a(s,u)$

2.学习思路

1.更好的Actor需要更好的优势函数

在单智能体agent的AC算法和REINFORCE算法中，最后到底想要什么？

“The critic is used only during learning and only the actor is needed during execution”

答案是：我们最后的一切目的是得到Actor： $\pi(a|s)$

在AC中，我们使用Critic来更好的更新Actor：
$\theta=\theta+\alpha\nabla_{\theta}log\pi_{\theta}Q_w(s,a)\tag1$
为了获得更好的Actor，当然我们也要更好的 $Q_w(s,a)$ ，COMA也就是在这个 $Q_w(s,a)$ 上做的文章，用了更好的优势函数将其代替。

2.IAC中优势函数不是足够好

具体过程

按照定义，多智能体的Independent Actor Critic中，每个agent把除自己外的其他agent和环境统一视作环境，然后把自己看做一个单智能体，不断用AC算法，维护自己的Q和Actor。

而AC算法的流程是，agent进行一步step，然后获得reward，下一个状态，以及下一个状态的动作，然后更新两个参数的网络， $w$ 和 $\theta$ ,并不断循环。

缺点:

不稳定。作为一个单智能体，其在同样的观测下做出同样的动作，reward很可能不一样。

Trick:

简化处理：所有agent共用一套网络参数： $A c t o r$ & $C r i t i c$
可以使用两种变体（优势函数）：

$\theta=\theta+\alpha\nabla_{\theta}log\pi_{\theta}A^{\pi_\theta}(o,a); A^{\pi_{\theta}}(o,a) = Q(o,a) - V(o)\tag2$

$\theta=\theta+\alpha\nabla_{\theta}log\pi_{\theta}TD_{error};TD_{error} = r+V(o_{t+1}) - V(o_t)\tag 3$

插曲：一个问题

Q: 在IAC中，每个单智能体，它的奖励是多少？因为奖励是环境给的，而环境给的时候是根据全局状态和全局动作给，你只给我一个单智能体的action，环境是不会给你你单独这个action的奖励的。换句话说，如果环境能很合理地根据单智能体的action给出合理的评价与奖励，那就没有后话了。

A: 而在星际争霸环境下，代码表示，当使用IAC的时候，每个单智能体的奖励是共享全局奖励的。例：三个agent的动作为actions = (上，下，开枪)，代码执行r = env.step(actons)，此时这个r就是一个具体的数，可能是0.8。这个时候这三个agent的reward都是0.8;当然，如果环境本身能够很好的给每个单智能体一个reward，也很好。