【论文笔记】RODE：为agent分配角色

邵政道

已于 2022-04-17 11:00:01 修改

阅读量1.4k

点赞数 1

分类专栏：知识笔记文章标签：强化学习

于 2022-04-12 16:07:46 首次发布

本文链接：https://blog.csdn.net/Xixo0628/article/details/124045540

版权

知识笔记专栏收录该内容

32 篇文章 7 订阅

订阅专栏

文章目录

引子

论文标题：RODE: LEARNING ROLES TO DECOMPOSE MULTI-AGENT TASKS，ICLR2021。RODE的名字取自role的ro和decompose的de。应用领域是多智能体强化学习。

论文链接：(ICLR 2021, https://arxiv.org/abs/2010.01523).
代码链接：https://github.com/TonghanWang/RODE

这篇论文的核心思想就是通过为agent分配角色，而每一个角色都只做特定几个动作，从而大幅度地限制了每个agent的动作空间，从而有效减小了搜索空间的大小。

在性能上，据论文所说，截至论文发表，在14张星际争霸2的图中的9张有最佳性能，且大多是比较复杂的地图。且作者声称，该算法可以扩展到更加复杂的地图上。

优点就是能够非常容易地推广到更加大规模的情境中。

模型结构介绍

在这里插入图片描述
先大致看一下整个结构。其中a的目的是学习一个优秀的动作编码方式，将动作映射到高维空间，从而更容易使用聚类算法进行角色分配。

b图呈现的是角色选择步骤。每c个时间步长就重新进行一次选择。c图就是agent根据自己的角色，选择动作的过程。
在这里插入图片描述
我自己绘制了一下RODE文章agent、role和action的关系，并于传统算法（QMIX等）进行了比较。就是在agent和action之间插入了一层role。这样子就可以减少决策时需要选择的动作数量，从而大大减少探索空间的复杂度。

大致了解整体架构后（暂时没看太明白也没关系），我们单独来看一下每一张图。

(a) 学习动作编码方式

在这里插入图片描述

这个步骤使用监督学习的方式。

对于每一个agent，在该步骤的输入都是观测到的情况o_i、其它agent的动作a_-i、自己的动作。自己的动作经过一个动作编码器，这个动作编码器将动作向量映射到一个d维空间中，易于K-means聚类，这能提高整体的性能（消融实验中能看到）。

输出就是预测的下一时刻观测到的情况o_i‘、对应的回报r_t,用在这里插入图片描述
计算损失函数，进行反向传播。λ_e是超参数，影响到agent的训练重心，调整具体的值，可以改变预测下一步观测、预测收益的重要程度。

初始时初始化K个角色，每个角色都有完整的动作空间。在收集样本并训练预测模型一段时间后，将动作进行聚类。将每个角色的操作空间设置为包含其中一个聚类。
训练正式开始后，每个角色对应的动作空间将保持不变。

(b) 角色选择器表征

用于训练角色选择器和角色策略的两个混合网络仅在训练期间使用。
在这里插入图片描述
每c个时间步长就要重新选择一次角色（每次选择相当于确定接下来c个行动的可能动作集合）。一旦确定，在c步内就不再
使用QMIX进行全局Q判断

训练时损失函数如下：
在这里插入图片描述
这里ρ是所有可以选择的角色。用前面是c步的回报收益加上c步后最优的角色分配的Q_tot值，减去当前预测的Q_tot，平方后关于replay buffer中的所有历史经验取期望，作为损失函数。使用了QMIX方法，以当前状态为输入，利用超网络生成网络参数，最小化TD误差。