Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability

KpLn_HJL

已于 2023-01-30 10:12:26 修改

阅读量403

点赞数

分类专栏：机器学习 # 强化学习文章标签：人工智能

于 2022-07-08 17:31:53 首次发布

本文链接：https://blog.csdn.net/sinat_41679123/article/details/125660969

版权

机器学习同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

强化学习

20 篇文章 0 订阅

订阅专栏

总结

核心：multi-task的moe思想迁移到multi-agent上（学习distilled agent），基于DQN，提出适合multi-agent的trajectory，改进了single agent，学习并使用distilled agent

p.s. 同时存储agent的trajectory图画得真好啊

背景

real-world的任务partial observability，因此提出partial observability情况下的multi-task, multi-agent，从单个任务的policy中蒸馏出统一的policy在所有任务上使用

multi-agent

本文是cooperative setting，agents共享joint return
MARL可以分为joint action learners(JALs)和independent learners(ILs)，前者会观察所有agent的action，后者只观察local action。受partial observability影响，本文基于ILs

multi-task

强化学习视角下的multi-task希望能学到一个通用的policy，在所有related task上perform well。这种方式最适合shared common feature tasks

mmoe

mmoe架构图

细节

rl用在multi-task上，主要是相关的task，agents share characteristics
本文是multi-agent，cooperative，independent，joint reward。
agent是deep recurrent q-networks，multi-task通过concurrent experience replay trajectories来实现

变量定义

每个agent做出动作 $a_i \in \mathcal{A}_i$ ，joint action为 $\bold{a} = [a_1, a_2, \dots, a_n]$
环境从state $\in \mathcal{S}$ 进行转移，转移概率为 $\bold{a}) = \mathcal{T}(s, \bold{a}, s')$
在每个timestamp里，每个agent得到观测值 $o_i \in \Omega_i$ ，同时有joint obs为 $\bold{o} = [o_1, o_2, \dots, o_n]$ ，其概率为 $P(\bold{o}|s', \bold{a}) = \mathcal{O}(\bold{o}, s', \bold{a})$

CERTs/concurrent experience replay trajectoris：本文提出的改进后的buffer，用于MARL下的experience replay

HDRQN： $Q^i(o_t^i, h_{t-1}^i, a^i; \theta^i)$ ，在DQN的基础上，用2个学习率 $\alpha, \beta$ ，其中 $\beta < \alpha < 1$
用target网络计算误差： $\delta_t^b = y_t^b - Q^b(o_t^b, h_{t-1}^b, a^b; \theta^i)$ ，当 $\delta \geq 0$ 时，用 $\alpha$ ，否则用 $\beta$

multi-agent实现方式

MARL一般不用replay buffer，是因为如果单独存agent的buffer，可能会让agent学到不同步的动作。experience replay对于网络稳定性非常有用，所以本文还是用了experience replay，只不过做了改进，改进为CERTs/concurrent experience replay trajectoris，在buffer中存储所有agent的数据

CERTs如下图，可以看到buffer里是存了所有agent同步的动作
e: episode, t: timestamp, i: agent
每次学习时，从buffer里随机取t开始， $\in \{ -\tau + 1, \dots, H_e \}$ ，其中 $\tau$ 表示每次选的时长， $H_e$ 是最后一个t，上图的(b)，从上至下开始的时间分别是+1, -1, +2。对于超过有效的长度，用0在后面填充

multi-task实现方式

每个agent把sample出的结果以及q值保存下来（长度 $\tau$ ），凑满batch个后，有一个minibatch的结果： $\mathcal{B} = \{ <o_{t_0}^b, Q_{t_0}^b>, \dots, <o_{t_0+\tau - 1}^b, Q_{t_0 + \tau - 1}^b> \}_{b = \{1, \dots, B\}}$ 。训练1个distilled DQRN，其损失函数为KL散度：
$L_{KL} = \mathbb{E} \sum_{a=1}^{A^i}softmax_a(\frac{Q_t^b}{T})\ln \frac{softmax_a(\frac{Q_t^b}{T})}{softmax(Q^b_{t,R})}$
其中：

$Q^b_{t,R}$ 是distilled HDRQN输入与分任务agent相同的输入时的输出
$T$ 是softmax temperature

这个损失函数实际上就是希望能让distilled HDRQN在specific task上的输出和specific agent的输出相近

实验

single-task实验
baseline：Dec-DRQN，分开比较了single-agent和multi-agent
multi-task实验

KpLn_HJL

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability

17-icml-Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observabilityagent用的HDRQN，multi-agent实现通过同时存储agent的trajectory，multi-task实现通过学习一个distilled agent
复制链接

扫一扫

专栏目录