![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Meta-RL
文章平均质量分 96
Ton10
肩上带风的tt
展开
-
Meta-RL之MAESN
这篇文章是2018年的NIPS,通过Meta-Learning技术来设计出一种时间一致性的探索策略。这篇文章的思想其实非常简单,就是在现有policy的输入上增加了一个高斯分布的Latent Space(潜在空间),从而形成一种结构性的随机探索策略MAESN。这种探索策略最大的特点有2个:一个是基于梯度的元学习算法学到的,故具有Fast Adaptation到新的task的特点。另一个是具有时间一致性特点,在策略中参入了与时间相关的因素,使得Agent在探索的时候,好像有了“视野”一般,会根据算法走原创 2021-12-04 23:28:42 · 933 阅读 · 0 评论 -
Meta-Learning之How to train your MAML
这篇文章是MAML的升级版本,即MAML++。他针对MAML的一些不足之处做了对应的改进,如稳定性、收敛速度、表现力等均得到提升。由于自己的算法实现中有用到MAML,为了让整体算法有一个好的性能,就来阅读了下这篇MAML升级版——MAML++。参考列表:①MAML++论文解读②模拟退火算法简介③模拟退火算法详解④MAML++PyTorch源码How to Train your MAML前言MAML的不足之处MAML vs MAML++MAMLMAML简介MAML的功能MAML核心公式MAML+原创 2021-11-23 23:26:10 · 3898 阅读 · 2 评论 -
Meta-Learning之Meta-SGD
这篇文章是MAML的提升版本,结合了Meta-LSTM的思想,生成一种新的元学习算法——Meta-SGD。参考列表:①Meta-SGD论文阅读笔记②MAML与Meta-SGDMeta-SGD: Learning to Learn Quickly for Few-Shot LearningMAML简介优势缺陷Meta-LSTM简介优势缺陷Meta-SGD核心思想伪代码实验结果总结MAML简介优势缺陷Meta-LSTM简介优势缺陷Meta-SGD核心思想伪代码实验结果总原创 2021-10-21 22:22:16 · 1900 阅读 · 2 评论 -
Meta-RL之Meta-Gradient Reinforcement Learning
这篇文章是用元学习算法去学习RL的超参数η={γ,λ}\eta=\{\gamma,\lambda\}η={γ,λ}。当然不仅限于这2个超参数,还可以是和回报相关的超参数。本文的核心思想:我们之前接触过Meta-Learning参数的初始化(MAML、Reptile)以及Meta-Learning参数的更新优化(L2L-by-gd-by-gd、Opt as a model for few-shot learning),那么这篇就是能否Meta-Learning到η={γ,λ}\eta=\{\gamma,\l原创 2021-10-02 21:52:00 · 1503 阅读 · 1 评论 -
Meta-RL之Reptile算法
Reptile算法和MAML一样,是Meta-Learning在学习一种初始化参数上的算法。MAML有二阶和简化版本——一阶FOMAML(First-order MAML)2种形式,而Reptile类似于FOMAML,是一种新型的一阶Gradient-Based 元学习算法。从实现上来看,Reptile比FOMAML还要简单,并且实验结果和FOMAML、MAML相差无几。Reptile是一篇2018年的论文,作者是Nichol,发布时间在MAML之后。参考列表:①Reptile原论文(On First原创 2021-09-25 18:17:29 · 4023 阅读 · 4 评论 -
Meta-RL之Optimization as a Model for Few-Shot Learning
这篇文章和Andrychowicz在2016年发表的Learning to learn by gradient by gradient很相似,都是利用Meta-Learning来学习出一个优化算法,并且需要注意的是Meta-Learner都是基于LSTM的循环神经网络,这也就是本论文标题的由来——将优化看成是一个模型(RNN)。Meta-Learning的通俗解释:少样本学习(Few-shot Learning)是Meta-Learning在监督学习领域的一个应用。元学习的关键是找到一种系统化的方法去学原创 2021-09-25 10:31:01 · 1059 阅读 · 0 评论 -
Meta-RL之Learning to Learn by gd by gd
这篇文章由DeepMind发表于2016年,比MAML的发表要早一些。2001年发表了一篇Learning to Learn Using Gradient Descent,这篇是其进一步的改进与优化。论文标题中就可以看出文章的目的:针对不同的需要用到梯度下降优化的模型,用梯度下降来优化的元学习算法去学习一种对应的梯度下降算法。可能听起来有点难以理解,但看过MAML这篇论文的,就可以把它和MAML放一起看,只不过MAML是通过元学习算法去学习初始化参数,而这篇使用元学习算法去学习一种优化算法。参考列表:①原创 2021-09-21 15:53:12 · 637 阅读 · 0 评论 -
Meta-RL之Fast RL via Slow RL
RL2RL^2RL2:这篇文章的一作是Yan Duan,发表于2017年,它和JX Wang于2016年发表的Learning to reinforcement learn一起被广泛认为是Meta-RL的开端。那么他们是如何迁移过来使得Meta-RL和Meta-Learning挂钩呢?答:回忆一下,Meta-Learning的两个优势在于快速适应(Fast Adaptation)以及通用性,除此之外还有一个2级结构——Meta-Learner和Learner:Learner用于学习一个具体的算法,比如原创 2021-09-17 11:23:54 · 473 阅读 · 0 评论 -
Meta-RL之Learning to Reinforcement Learn
广泛认为2016年由JX Wang发表的Learning to Reinforcement Learn是Meta-RL最早提出的版本。本论文将Meta-Learning的思想用到了强化学习上,目标是使DRL方法可以快速迁移到新的tasks中。RNN可以处理监督学习的Meta-learning问题,作者将方法用到强化学习的Meta-learning中。作者在原有任务的强化学习(指的是在固定MDP的RL任务中使用的标准RL算法)中加入第二个强化学习过程,该过程使用RNN模型自动学习不同任务的知识,从而使得新的原创 2021-09-15 22:35:42 · 827 阅读 · 0 评论 -
Meta-RL之Learning to Learn Using Gradient Descent
Meta-RL是将Meta-Learning结合在强化学习上的学习算法。Meta-RL旨在训练出一个可以泛化到新的task上的学习算法FFF。给定一个新的环境,或者说一个新的MDPMDPMDP,FFF只要在新环境中采样少量样本进行微调,即可快速适应得到最优策略fπ∗f_\pi^*fπ∗。而fπ∗f_\pi^*fπ∗就是我们之前用标准RL算法一直在做的一件事。这里以监督学习为例(将分类模型替换成RL中的策略模型πθ\pi_\thetaπθ就是Meta-RL在做的事),来理解Meta-RL:Meta-R原创 2021-09-14 15:42:38 · 531 阅读 · 0 评论