论文阅读笔记《Meta-learning with differentiable closed-form solvers》

深视

于 2020-07-29 16:15:38 发布

阅读量2k

点赞数 2

分类专栏：论文阅读笔记 # 小样本学习文章标签：深度学习小样本学习元学习

本文链接：https://blog.csdn.net/qq_36104364/article/details/107663895

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章 145 订阅

订阅专栏

小样本学习

100 篇文章 136 订阅

订阅专栏

小样本学习&元学习经典论文整理||持续更新

核心思想

本文提出一种基于元学习的小样本学习算法（R2-D2，LR-D2），本文的整体框架沿用了元学习的方式，包含两个层次的训练过程：元训练和元测试。本文的主要改进是针对基学习器中的分类方法，既没有采用最近邻的方式，也没有采用全连接层的方式，而是采用了带有闭式解的可微分的回归方法——岭回归（Ridge Regression，R.R.）和逻辑回归（Logistic Regression，LR）。
首先还是先回顾下常规的元学习方法是如何实现的，元学习过程分为元训练和元测试阶段。元训练阶段就是利用元训练集对基学习器进行多个episode的训练，每个episode就是一个普通的训练-测试过程，首先由一个特征提取网络 $\phi$ 将输入的样本 $x$ 转化为特征向量 $\phi(x)$ ，然后利用一个分类器 $f$ 输出预测的结果 $f(\phi(x),w_{\varepsilon})$ ， $w_{\varepsilon}$ 表示分类器的参数，其对应于本次训练的数据集 $\varepsilon$ 。整个数据集分为训练集 $Z_{\varepsilon}$ 和测试集 $Z_{\varepsilon}'$ 两部分，两者之间没有重叠的部分，元训练的损失计算过程如下式
在这里插入图片描述
$w_{\varepsilon}$ 表示在元训练阶段得到的分类器的参数， $\Lambda$ 表示根据特征向量得到分类器参数的一种学习算法。如果将 $q(\varepsilon)$ 直接作为元测试阶段的损失，通过反向传播进行参数更新的话，其实就相当于用另一个数据集又做了一次训练，这样是起不到元学习的效果的。因此在元学习过程中，通常会在对 $\phi$ 和 $\Lambda$ 进行参数化时引入一系列的元参数，然后再在整个数据集 $E$ 上利用多个episode的训练结果对元参数进行训练，这就是元测试的阶段。元测试损失计算过程如下式
在这里插入图片描述
式中 $\omega$ 和 $\rho$ 就分别表示 $\phi$ 和 $\Lambda$ 中待学习的元参数，而元参数（或者说元学习器， $\omega$ 和 $\rho$ ）和基学习器（ $\phi$ 和 $\Lambda$ ）的设计就是各个元学习算法的核心了。在基学习器方面，本文选择普通的卷积神经网络作为特征提取器 $\phi$ ，而对于分类器 $f$ 则是采用了普通的线性分类器 $f(\phi(x))=\phi(x)W$ ，则分类器的参数 $w_{\varepsilon}$ 就可以表示为分类器的权重参数 $W=\Lambda(Z)$ 。本文主要是对 $\Lambda$ 的设计做了改进，选择了两种可微分的带有闭式解的回归方法——岭回归（Ridge Regression，R.R.）和逻辑回归（Logistic Regression，LR），我们分别介绍一下两种方法的实现过程。
岭回归是采用最小二乘法来计算权重 $W$ 的闭式解，计算过程如下
在这里插入图片描述
因为最小二乘法容易出现过拟合现象，因此引入了L2正则化项。上式在求解过程中由一个重要的问题，就是 $X^TX$ 的维度会以平方的速度随着特征向量的维度增长而增长，为了解决这个计算问题，本文采用了Woodbury公式对上式进行等价转化，得到下式
在这里插入图片描述
这样 $XX^T$ 的维度增长是随着特征向量的数目增长而增长的，而本文针对的是小样本学习问题，特征向量的数目较少，因此不会导致计算量的大幅增长。得到分类器权重 $W$ 后并不能直接得到预测结果，因为输出的不是一个独热向量，因此还需要一个转化过程，如下式
在这里插入图片描述
其中 $\alpha$ 和 $\beta$ 分别表示放缩和平移参数。在元测试阶段则是对 $\Lambda$ 中的超参数 $\lambda, \alpha, \beta$ ，以及 $\phi$ 中参数 $\omega$ （本文是将卷积神经网络中所有的权重参数都看作元参数）进行训练。
逻辑回归是采用牛顿法来求闭式解，迭代计算过程如下
在这里插入图片描述
其中

$\sigma$ 表示Sigmoid函数。同样的利用Woodbury公式可得

逻辑回归是可以得到一个独热向量作为预测结果的，因此就不需要转化过程了。

实现过程

网络结构

特征提取网络采用4-conv结构。

损失函数

交叉熵损失函数

创新点

使用更简单的带有闭式解的可微分回归方法取代了原有的学习算法（kNN,CNN等）

算法评价

本文还是采用了一套标准的元学习算法的流程，但是在分类器参数优化方法方面提出了自己的理解，不再使用kNN，CNN，LSTM等学习算法，而是采用了更加传统的参数优化方法如岭回归和逻辑回归。而且作者提到只要是一个可微分的优化方法都可以应用于分类器的参数优化，这就为后来的探索留下了很大一片空间，毕竟一阶和二阶的优化方法研究得更加成熟，相关算法也有很多。之前担心传统的优化算法很难在深度神经网络这样大的一个参数空间内，快速的找到泛化能力强的最优解，但根据作者的实验结果来看，在小样本学习的条件下，其效果还是不错的。

如果大家对于深度学习与计算机视觉领域感兴趣，希望获得更多的知识分享与最新的论文解读，欢迎关注我的个人公众号“深视”。在这里插入图片描述