[AAAI2020] From Few to More: Large-scale Dynamic Multiagent Curriculum Learning 笔记

强殖装甲凯普

于 2019-11-03 16:11:55 发布

阅读量1k

点赞数

分类专栏：论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38163755/article/details/102846638

版权

本文介绍了如何利用课程学习理论解决大规模多智能体学习问题，提出DyAN架构和三种迁移方法，包括模型重载、缓冲区重用和课程蒸馏，旨在加速学习并应对不断变化的智能体数量。实验表明这些方法在独立学习场景下表现出色。

摘要由CSDN通过智能技术生成

文章目录

前言
背景
- POSG
- 课程学习
Method
Experiment

前言

这篇文章介绍了三种迁移方法，来通过课程学习加速。然后提出了一个新的架构DyAN，使得模型与agent数目无关。
一个有效的解决large-scale多智能体学习问题的方法是利用课程学习理论。将CL应用在RL上一个重要的方向是如何解决持续增长的复杂任务，这也是CL应用在RL上的目的。另一个CL的重要方向是自动设计课程。目前多智能体上应用CL的算法都很简单，比如Agarwal他们就是单纯的增加agent的数量，将之前的策略作为initialization。这篇文章也就是提出简单的迁移机制加速CL，DyAN的结构和Agarwal的有点相似，个人感觉创新性不大。

背景

POSG

将问题建模为局部可观察随机博弈（POSG），通过元组 $\left \langle \mathcal{N,S,A^1,\cdots,A^n,}T,\mathcal{R^1,\cdots,R^n,O^1,\cdots,O^n} \right \rangle$ 定义。
agent $i$ 在step $t$ 的观察可以构建为 $o_t^i=\{o_t^{i,en$

最低0.47元/天解锁文章

强殖装甲凯普

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
[AAAI2020] From Few to More: Large-scale Dynamic Multiagent Curriculum Learning 笔记

文章目录前言前言这篇文章介绍了三种迁移方法，来通过课程学习加速。然后提出了一个新的架构DyAN，使得模型与agent数目无关。一个有效的解决large-scale多智能体学习问题的方法是利用课程学习理论...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。