论文阅读笔记《Meta-SGD: Learning to Learn Quickly for Few-Shot Learning》-CSDN博客

本文链接：https://blog.csdn.net/qq_36104364/article/details/106096500

小样本学习&元学习经典论文整理||持续更新

核心思想

本文是在MAML的基础上进一步探索利用元学习实现无模型限制的小样本学习算法。思路与MAML和Meta-LSTM比较接近，首先MAML是利用元学习的方式获得一个较好的初始化参数，在此基础上只需要进行少量样本的微调训练就可以得到较好的结果，这种方式实现简单，但由于只对初始化参数进行学习，模型的容量有限。Meta-LSTM则是利用LSTM网络作为外层网络对内层网络的各项优化参数（学习率、衰减率等）进行学习，这一方法模型容量大，但由于LSTM训练过程复杂，且收敛速度较慢，实用性不高。因此作者受二者启发，提出一种折中的方案，沿用MAML只需要同一个网络结构，分别进行内层次训练和外层次训练。任务数据集分成两部分：训练子集 $D^{train}$ 和测试子集 $D^{test}$ 。首先在训练子集上进行内层次训练，其数学表达如下：
在这里插入图片描述
其中 $\alpha$ 是一个与 $\theta$ 尺寸相同的向量，同时决定了参数更新的方向和学习率， $\circ$ 表示逐元素相乘操作。则自适应项 $\alpha\circ\triangledown L_T(\theta)$ 是一个向量，其方向就是更新的方向，其长度就表示学习率，如下图所示。
在这里插入图片描述
在测试子集 $D^{test}$ 上进行外层次训练，也就是元学习的过程，同时对初始化参数 $\theta$ ，学习率 $\alpha$ 和参数更新的方向进行学习。有趣的是，元学习过程还是采用了SGD的方式，学习率 $\beta$ 是由人工选定的值。
在这里插入图片描述
元学习的目标是希望找到最优的初始化参数 $\theta$ 和学习率向量 $\alpha$ 使得训练得到的网络在所有任务上的经验损失最低。