Meta-RL是将Meta-Learning结合在强化学习上的学习算法。Meta-RL旨在训练出一个可以泛化到新的task上的学习算法
F
F
F。给定一个新的环境,或者说一个新的
M
D
P
MDP
MDP,
F
F
F只要在新环境中采样少量样本进行微调,即可快速适应得到最优策略
f
π
∗
f_\pi^*
fπ∗。而
f
π
∗
f_\pi^*
fπ∗就是我们之前用标准RL算法一直在做的一件事。这里以监督学习为例(将分类模型替换成RL中的策略模型
π
θ
\pi_\theta
πθ就是Meta-RL在做的事),来理解Meta-RL:
Meta-RL有2点是比较吸引人的:
- 快速适应。众所周知,RL算法的性能很大程度上受限于样本数目的丰富度,有时候采样效率的低下会直接导致标准RL算法跑飞。那么解决这个问题,很自然的一个思路就是是否有一种办法使得用少量样本就可以让Agent在某个环境中表现出色呢?这就是Meta-RL,其具有快速适应新task的能力,使得对于一个新的RL环境,只需要采样少量样本(微调),Agent就可以找到一个比较不错的策略 π \pi π。
- 通用性。RL还存在的另一个显著问题是,你会发现你辛苦调节好超参之后的某个算法在某个环境里表现的还不错,但是换了个环境,就拉跨了,于是还要继续调节超参数…。AI领域一直在寻求一种通用性算法,使得针对不同的任务,我们的算法都可以自动进行调节来满足它。那么Meta-RL就是在往这个方向发展——Meta-Agent在许多不同的环境中训练,使得拿来几个新的环境,Agent会自己进行适当的微调就可以达到之前固定 M D P MDP MDP下标准Agent达到的效果。
参考列表:
①LiI’ Log或者其简要翻译版
②论文笔记1
③论文笔记2
④Meta-learning by LiI
⑤MAML论文笔记
简介
- Meta-RL最早于2016年的一篇论文提出——Learning to Reinforcement Learn。这篇文章思想的起源就是Learning to Learn using Gradient Descent。
- 第一作者是Sepp Hochreiter,LSTM的发明者之一;
- 2017年DeepMind研究员进行扩展优化,形成一篇论文——Learning to learn by gradient descent by gradient descent。
主要内容
- 从这篇文章开始,Meta-learning进入了使用梯度下降法来进行元学习的阶段
- Gradient Descent的引入使得较大模型参数的训练得以实现,也为后续元学习奠定了基础。
- 在Meta-learner中使用循环神经网络(RNN、LSTM),从而使得Gradient Descent得以实现。
全文最核心的就是提出了这样的一个结构:
- Meta-learning架构分为两个部分,一个是
Meta-learner
,另一个是Learner
。Learner就是我们比较熟悉的具体的某一个算法,比如监督学习的分类回归以及强化学习的标准算法;Meta-learner就是我们要去寻找可以快速适应到新tasks上的学习算法。如上图所示,Meta-learner又可以细分为2部分——subordinate-system
(从属系统)和supervisory-system
(监督系统)。 - 从属系统负责和Learner直接接触,采用
LSTM
实现,其输入是当前时间步 j j j的状态 x j x_j xj和上个时间步输出 y j − 1 y_{j-1} yj−1;输出分三路,分别发到Learner,从属系统中的调节部分( y j − 1 y_{j-1} yj−1的引入可以方便从属系统获得上一步的错误率,从而进行校正),以及监督系统中。 - 监督系统负责评价从属系统产生算法的优劣性,方便进行监督。这部分作者采用BPTT算法(BPTT算法和普通的DNN使用BP算法类似,可参考刘建平博客园或者点这里)
。 - 由于输入与时间序列有关,因此循环神经网络是必须的,而考虑到梯度爆炸和梯度消失现象,作者才使用了LSTM。
- 虽然该论文基于监督学习,
但是对于Meta-RL的发展有着重要意义。