Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team Composition论文导读

本文链接：https://blog.csdn.net/Jinyindao243052/article/details/130061387

分享论文:

本文的研究对象是 Decentralized Partially Observable Markov Decision Process (Dec-POMDP) , 首先介绍一下它和传统的MAMDP的区别:

所有实体(entity)的集合记为 $\mathscr{E}$ , 这里的实体包括 agent 和一些非 agent 的动态物体, 其中 agent 的集合记为 $\mathscr{A}$ . 每个实体的状态记为 $s^{e}$ , $e\in \mathscr{E}$ , 每个agent动作记为 $u^{a}$ , $a\in \mathscr{A}$ , 每个实体有一个特征 $c^{e}$ (对于agent来说通常是指它的skill-level), $e\in \mathscr{E}$ , 记联合特征为 $\mathbf{c}$ , 是一个环境参量, 一组 $\mathbf{c}$ 的取值对应一个不同的场景(scenario), 不同的场景出现的概率分布为 $\rho(\mathbf{c})$ . “部分观测性”: 每个agent并不能观测到所有实体的状态, 它智能观测到部分实体的状态, 定义 $m (a, e)$ , $a\in \mathscr{A}, e\in \mathscr{E}=\{0,1\}$ , 表示agent $a$ 能否观测到实体 $e$ 的状态(1表示能, 0表示不能). 每个agent的观测为 $o^{a}$ , $a\in \mathscr{A}$ . 所有的实体有一个global Q function: $Q^{tot}(\mathbf{s}, \mathbf{u};\mathbf{c})$ , 其中 $\mathbf{s}, \mathbf{u}$ 分别为联合状态和联合动作. 在算法中常用的 $Q_{*}^{tot}$ 的approximator为: $Q^{tot}_{\theta}(\bm{\tau}, \mathbf{u}; \mathbf{c})$ . 其中 $\bm{\tau}_{t}=\{\tau_{t}^{a}\}$ , $\tau_{t}^{a}=\{o_{1}^{a}, a_{1}^{a}, ..., o_{t}^{a}\}$ 是观测-动作历史(history), 在算法中通常由一个循环神经网络得到: 在每个时刻 $t$ , 循环神经网络输入 $u_{t-1}^{a}, o_{t}^{a})$ , 以输出作为 $\tau_{t}^{a}$ .

history 的计算

用循环神经网络计算 history

在DQN算法中, 它的损失函数为

$L(\theta) = \mathbb{E}_{(\mathbf{c}, \bm{\tau_{t}}, \bm{u_{t}}, r_{t}, \bm{\tau_{t+1}})\sim \mathcal{D}}[(r_{t}+\gamma \max_{\mathbf{u}'}Q_{\overline{\theta}}^{tot}(\bm{\tau}_{t+1}, \mathbf{u}'; \mathbf{c})-Q_{\overline{\theta}}^{tot}(\bm{\tau}_{t}, \mathbf{u}'; \mathbf{c}))^{2}]$

$\mathcal{D}$ 是replay buffer, 其中上划线表示target network的参数.

还有一个重要的区别是没有每个agent的reward信息, 环境只会给一个整体评价(team reward) $r_{t}$ . 目标函数是discounted cumulative team reward:
$G=\mathbb{E}_{\bm{\tau}}[\sum\limits_{i=1}^{\infty}\gamma^{t}r_{t}]$

有一个中心控制端(coach agent), 用于生成agent的调度策略, 相当于分配任务, 记为 $\mathbf{u}=\{u_{a}\}$ , $a\in \mathscr{E}$ , 其中 $u_{a}\in \{0,1\}$ 表示agent $a$ 是否被派去完成这项任务. 每个agent有一个评分(skill-level) $c^{a}$ , $a\in \mathscr{E}$ , $\mathbf{c}=\{c^{a}\}$ . 如果有多于一个agent去做这项任务, 则整个团队将被惩罚.
定义目标函数:
$R(\mathbf{u}, \mathbf{c}) = \max_{a} c^{a} u^{a}+1-\sum\limits_{a}u^{a}$
作为agent $a$ 的目标. 此目标函数第1项表示: 完成这项任务的agent中能力最大的agent的评分, 第2项表示: 1-被派去的agent的数量.

coach agent 能够观测到global state $\mathbf{s}$ , 并可以根据global state产生信息发送给agent, 给每个agent发送的信息是定长的, 但是不同agent的不同, 文中称为strategy, 是一个vector, 记作 $z^{a}$ , $a\in \mathscr{E}$ , 长度为 $d_{z}$ , $\mathbf{z}=\{z^{a}\}$ , $a\in z^{a}$ , coach产生 $z^{a}$ 的策略为 $f(\mathbf{s}, \mathbf{c})$ , 在算法中它的approximator记为 $f_{\phi}(\mathbf{s}, \mathbf{c})$ . agent采取策略的时候将会参考coach agent发送的strategy信息. coach agent并不是每个step都给agent发送信息, 而是每 $T$ 步才收一次global state, 生成信息发送给agent, agent 收到coach发来的信息之后, 在接下来的 $T$ 步内根据自己的观测和coach的信息来来产生动作.

$Q^{tot}(\mathbf{s}, \mathbf{u};\mathbf{c})$
$L(\theta, \phi) = \mathbb{E}_{(\mathbf{c}, \bm{\tau_{t}}, \bm{u_{t}}, r_{t}, \bm{\tau_{t+1}})\sim \mathcal{D}}[(r_{t}+\gamma \max_{\mathbf{u}'}Q_{\overline{\theta}}^{tot}(\bm{\tau}_{t+1}, \mathbf{u}'; | \mathbf{z}_{\hat{t+1}}; \mathbf{c})-Q_{\overline{\theta}}^{tot}(\bm{\tau}_{t}, \mathbf{u}'|\mathbf{z}_{\hat{t}} ; \mathbf{c}))^{2}]$
其中 $\hat{t}= \max \{v | v \equiv 0 (\mod \ T ) \mathrm{ and } v\leq t\}$ , 即距离 $t$ 时刻最近的coach下发信息时间, $z_{\hat{t+1}}\sim f_{\phi}(\mathbf{s}_{\hat{t}}; \mathbf{c})$ , $z_{\hat{t+1}}\sim f_{\overline{\phi}}(\mathbf{s}_{\hat{t+1}}; \mathbf{c})$ .