[AAAI2020] From Few to More: Large-scale Dynamic Multiagent Curriculum Learning 笔记

本文介绍了如何利用课程学习理论解决大规模多智能体学习问题,提出DyAN架构和三种迁移方法,包括模型重载、缓冲区重用和课程蒸馏,旨在加速学习并应对不断变化的智能体数量。实验表明这些方法在独立学习场景下表现出色。
摘要由CSDN通过智能技术生成

前言

这篇文章介绍了三种迁移方法,来通过课程学习加速。然后提出了一个新的架构DyAN,使得模型与agent数目无关。
一个有效的解决large-scale多智能体学习问题的方法是利用课程学习理论。将CL应用在RL上一个重要的方向是如何解决持续增长的复杂任务,这也是CL应用在RL上的目的。另一个CL的重要方向是自动设计课程。目前多智能体上应用CL的算法都很简单,比如Agarwal他们就是单纯的增加agent的数量,将之前的策略作为initialization。这篇文章也就是提出简单的迁移机制加速CL,DyAN的结构和Agarwal的有点相似,个人感觉创新性不大。

背景

POSG

将问题建模为局部可观察随机博弈(POSG),通过元组 ⟨ N , S , A 1 , ⋯   , A n , T , R 1 , ⋯   , R n , O 1 , ⋯   , O n ⟩ \left \langle \mathcal{N,S,A^1,\cdots,A^n,}T,\mathcal{R^1,\cdots,R^n,O^1,\cdots,O^n} \right \rangle N,S,A1,,An,T,R1,,Rn,O1,,On 定义。
agent i i i 在step t t t 的观察可以构建为 o t i = { o t i , e n v , m t i , o t i , 1 , ⋯   , o t i , i − 1 , o t i , i + 1 , ⋯   , o t i , n } o_t^i=\{o_t^{i,en

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值