ICLR 2018 BEST PAPER

最新推荐文章于 2022-07-19 23:29:14 发布

DeepMatter

最新推荐文章于 2022-07-19 23:29:14 发布

阅读量1.9k

点赞数

分类专栏： algorithm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DeepMatter/article/details/80562215

版权

本文探讨了如何使用元学习解决非静态环境中的多智能体增强学习问题，这是一个比传统静态环境更复杂且更具现实意义的场景。文中提到的方法——连续适应通过元学习，旨在解决如愤怒的小鸟游戏中重力动态变化等非静态环境挑战。通过multi-task MAML算法，文章阐述了任务定义、轨迹理解以及算法执行流程，强调在多任务环境中选择最优的适应更新策略。

摘要由CSDN通过智能技术生成

这篇文章的题目如下：
这里写图片描述
论述了如何将元学习用于非静态环境下多agents的增强学习。与传统的多agents静态环境（atari）和单agent静态环境相比，该场景更复杂，同时也与实际应用情景相吻合！该问题的提出在review中被认为是通向AGI的重要的一步。设想这样的一个游戏场景：愤怒的小鸟—游戏中的重力随着时间动态的改变，从而该场景是一个典型的非静态环境，是之前的增强学习方法所不能handle的。
下面将从multi-task MAML入手，引入文章所用技术的基本components；随后，从伪代码简要分析文章所提方法—continuous adaptation via meta-learning。

multi-task MAML
在给出MAML在多任务下的图模型之前，给出文章的截图，并做一些注释和分析。

对于一些定义的表述，需要做以下两点的注意：
1.文章关于任务做了如（1）式的定义，一个任务由一个元组组成，元组包括任务的损失函数、任务的马尔科夫链（用来表征环境变化的）、观测和动作以及horizon H。在SL中，马尔科夫链的转移概率设为1，H设为1。
2.关

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。