ICLR 2018 BEST PAPER

本文探讨了如何使用元学习解决非静态环境中的多智能体增强学习问题,这是一个比传统静态环境更复杂且更具现实意义的场景。文中提到的方法——连续适应通过元学习,旨在解决如愤怒的小鸟游戏中重力动态变化等非静态环境挑战。通过multi-task MAML算法,文章阐述了任务定义、轨迹理解以及算法执行流程,强调在多任务环境中选择最优的适应更新策略。
摘要由CSDN通过智能技术生成

这篇文章的题目如下:
这里写图片描述
论述了如何将元学习用于非静态环境下多agents的增强学习。与传统的多agents静态环境(atari)和单agent静态环境相比,该场景更复杂,同时也与实际应用情景相吻合!该问题的提出在review中被认为是通向AGI的重要的一步。设想这样的一个游戏场景:愤怒的小鸟—游戏中的重力随着时间动态的改变,从而该场景是一个典型的非静态环境,是之前的增强学习方法所不能handle的。
下面将从multi-task MAML入手,引入文章所用技术的基本components;随后,从伪代码简要分析文章所提方法—continuous adaptation via meta-learning。

  • multi-task MAML
    在给出MAML在多任务下的图模型之前,给出文章的截图,并做一些注释和分析。
    这里写图片描述
    对于一些定义的表述,需要做以下两点的注意:
    1.文章关于任务做了如(1)式的定义,一个任务由一个元组组成,元组包括任务的损失函数、任务的马尔科夫链(用来表征环境变化的)、观测和动作以及horizon H。在SL中,马尔科夫链的转移概率设为1,H设为1。
    2.关

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值