小样本学习&元学习经典论文整理||持续更新
核心思想
本文是在MAML的基础上进一步探索利用元学习实现无模型限制的小样本学习算法。思路与MAML和Meta-LSTM比较接近,首先MAML是利用元学习的方式获得一个较好的初始化参数,在此基础上只需要进行少量样本的微调训练就可以得到较好的结果,这种方式实现简单,但由于只对初始化参数进行学习,模型的容量有限。Meta-LSTM则是利用LSTM网络作为外层网络对内层网络的各项优化参数(学习率、衰减率等)进行学习,这一方法模型容量大,但由于LSTM训练过程复杂,且收敛速度较慢,实用性不高。因此作者受二者启发,提出一种折中的方案,沿用MAML只需要同一个网络结构,分别进行内层次训练和外层次训练。任务数据集分成两部分:训练子集
D
t
r
a
i
n
D^{train}
Dtrain和测试子集
D
t
e
s
t
D^{test}
Dtest。首先在训练子集上进行内层次训练,其数学表达如下:
其中
α
\alpha
α是一个与
θ
\theta
θ尺寸相同的向量,同时决定了参数更新的方向和学习率,
∘
\circ
∘表示逐元素相乘操作。则自适应项
α
∘
▽
L
T
(
θ
)
\alpha\circ\triangledown L_T(\theta)
α∘▽LT(θ)是一个向量,其方向就是更新的方向,其长度就表示学习率,如下图所示。
在测试子集
D
t
e
s
t
D^{test}
Dtest上进行外层次训练,也就是元学习的过程,同时对初始化参数
θ
\theta
θ,学习率
α
\alpha
α和参数更新的方向进行学习。有趣的是,元学习过程还是采用了SGD的方式,学习率
β
\beta
β是由人工选定的值。
元学习的目标是希望找到最优的初始化参数
θ
\theta
θ和学习率向量
α
\alpha
α使得训练得到的网络在所有任务上的经验损失最低。
实现过程
与MAML相同该算法也是不对模型和任务进行限制,可用于分类、回归和强化学习等多种任务,网络结构和损失函数可以根据任务需求自行选定。
创新点
- 利用元学习的方法同时对初始化参数,学习率和更新方向进行学习,训练得到的模型可以很容易的经过微调以适应新的任务。
算法评价
相对于MAML,该算法的模型容量得到了提高;相对于Meta-LSTM,该算法的训练难度得到了明显的下降,根据实验结果来看,在多项任务中相对于MAML和Meta-LSTM都有一定的提高,但由于前两个算法珠玉在前,本文则显得比较平庸,创新性也略显不足。
如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。