【论文理解】Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for the Characteristics of..

最新推荐文章于 2022-04-02 15:37:52 发布

辣椒油li

最新推荐文章于 2022-04-02 15:37:52 发布

阅读量1.4k

点赞数 4

分类专栏：少样本学习文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/lijianyi0219/article/details/110439379

版权

少样本学习专栏收录该内容

10 篇文章 29 订阅

订阅专栏

内容概览

前言
一、无监督元学习算法
- - 元学习算法
  - 无监督的元学习算法
二、四个改进点
三、部分实验结果展示
总结

前言

论文的名字太长了，放不进标题里，我再列一下论文的完整题目：Revisiting Unsupervised Meta-Learning:
Amplifying or Compensating for the Characteristics of Few-Shot Tasks。论文的作者来自南京大学，2020/11/30挂在arxiv上。

这是一篇改进无监督少样本学习算法的论文（从题目中可以感受到，“增强和补偿特征”），作者在现存的一种无监督元学习少样本分类算法上，添加了几个改进点，获得了很好的实验结果。作者也做了大量实验，来观测不同参数对结果的影响。

我认为实验结果很好，有一些是之前想不到的，感谢作者的实验，带我开眼哈哈哈哈~

一、无监督元学习算法

注意，这里的无监督元学习算法特指，用于解决少样本图像分类问题的一种算法哦~

元学习算法

基于元学习的少样本学习算法包括元训练及元测试阶段，在元训练阶段，每一个样本是人为构造出的假任务（fake task），一般称为episode。这个假任务中包含了support和query set，不过它们都是有标签的。训练使用的数据集称为基类数据。在元训练时，我们对每个task中query的预测结果求交叉熵损失，并用这个损失更新网络。训练完成后，在元测试阶段对网络解决FSL（Few Shot Learning）任务的能力进行测试。元训练与元测试阶段使用的数据类别是完全不交叉的。测试使用的数据集称为新类数据。

这里放一张我论文里面的图片，方便理解
在这里插入图片描述

无监督的元学习算法

这里的无监督指的是，在元训练阶段我们不知道基类图像的标签。 因此在构建假任务时，我们不知道把哪些图像放到一类的support set中去。

此时，之前的研究者提出一种类似于对比自监督学习的方式，把每张图像进行随机增广，并把每一张图像看作是一个类别，增广的图像和原图就构成了这一类别的数据集。
在这种设定下，我们按照之前的方式进行采样，构造假任务用于元训练。剩下的流程和有监督元训练是一致的。

至于具体如何进行少样本分类的，本文采用的是Prototype Net的度量式方法，即对每一类support set的特征求均值，作为该类的prototype，再计算query特征到每一类的prototype的距离，选择距离最近的类别，作为当前query的预测类别。此时的距离计算可以用欧式距离、余弦距离等。

欧式度量：
在这里插入图片描述
余弦度量（把上式的 $S i m$ 函数替换为余弦计算）：

本文作者就是在这种算法上，进行自己的四方面改进。

二、四个改进点

1.Sufficient Episodic Sampling (SES）

这个翻译一下，就是在元训练的每一个mini-batch中，增加人为构造的假任务的个数。如何增加呢，就从当前采样的这个假任务中，再采样。下面解释一下为啥这么做。

为什么增加任务个数？

在第一部分介绍的无监督元学习算法中，每一个mini-batch只包含一个任务，网络在对每个mini-batch计算损失后就反向传播、更新参数，这有些草率。作者认为应该增加一个batch中的任务数量，让网络在多个任务上求平均损失，再反向传播。

我认为，这样会更接近于普通图像分类网络的训练。因为元学习中，一个假任务就相当于一个训练样本，在一个mini-batch中就应该包含几个样本，对他们的损失求均值再反向传播才对。所以，作者的思路我感觉很顺畅合理。

如何增加任务个数？

假设我们想用于训练的假任务是 $N * K$ 的（即N-way，K-shots），那么在当前batch中，先采样一个 $C * K$ 的任务，其中 $C > N$ 。把这个任务中的全部样本通过一次特征提取网络，获得每张图像的特征。

接着，我们对这些特征进行二次采样：从 $C$ 个类别中，采样出 $N$ 个类别，每个类别对应的support和query的样本也采样出来。如此采样100次，我们就能在当前的mini-batch下获得100个task。这是一种高效的方法。

2.Semi-Normalized Similarity metric (SNS）

这个改进点是针对于前面提到的余弦度量来说的。作者把余弦度量的计算变成了半归一化，只对prototype进行归一化，不再对query特征归一化。如下：
在这里插入图片描述
它和下面的式子相等：

可以看出，半归一化相当于在余弦距离上乘了一个自适应的temperature，这是作者如此修改的原因。实验证明“半归一化”的效果确实要好一些。

The instance-specific temperature softens the logit value well and improves the efficiency of meta-training.

接下来的两个改进点是变化幅度比较大的，是针对任务特征进行的增强和补偿。

3.Hard Mixed Supports (HMS)

这一点有点像难例挖掘。
在一个task中，作者找到难区分的图片，即离得很近却不属于同一类。并把它们进行特征融合（mix）：
$\hat{S}_j$ 是针对query图像 $x_j$ 的难例数据集。（对每一张query图像都进行这样的融合、扩充数据）
在这里插入图片描述
把融合后的结果重新加入原来的support set中，再用扩增的support set进行少样本分类。

通过这样融合“难例”的方式，作者想要增大训练过程中task的难度，以此提升训练效果。 下图中的(b)是对HMS的流程描绘。

在这里插入图片描述

4.Task-specific Projection Head

依赖任务的映射头——这个改进相当于加入了注意力模块，采用了类似于 transformer 中的 key, query 和 value这几个要素。作者引入 $W_Q, W_K, W_V$ 三个网络参数，分别乘在特征上，获得其对应的query, key 和 value。对一个任务中的图像特征进行了改进。改进方式是对某张图像的特征，融合一些对它重要的其他图像特征。注意力大小的计算公式如下：

在这里插入图片描述
基于注意力值进行特征融合，式子中的 $L (.)$ 表示一个网络层序列：

在这里插入图片描述
我感觉上面这个式子里的 $W_Q$ 应该是 $W_V$ ，可能是写错了。

上面的过程就完成了一次注意力聚合，作者也尝试了多头注意力方法，并且发现多头的效果比单头好，实验结果如下：
在这里插入图片描述

三、部分实验结果展示

1.对比其他算法

这里的主干网络采用ResNet，效果比Conv-4要好~
在这里插入图片描述

2.各种控制变量的实验

作者对网络的各种超参数设置做了对比实验，比如元训练时，对于假任务的 $N, K, Q$ 值的选择，实验中设置 $C = 64$ ，选择不同的 $N, K, Q$ 值做对比试验，结果如下：

在这里插入图片描述

3.HMS和TSP-Head不兼容

作者通过实验发现，这两种改进方式同时使用时效果会下降，不如单独使用某一种好。
在这里插入图片描述

总结

这篇论文是关于无监督的少样本学习算法的，使用了元学习的框架并取得了很好的实验结果。
1、这些实验结果证明了即便是在元学习框架下，测试阶段的任务类型也不会受到元训练时任务类型的限制，只是需要选择好训练时的 $N, K, Q$ 值。

从实验结果可以看出，在一种 $N, K$ 设置下训练获得的网络，可以很好地解决5way-1shot、5shot、20shot和50shot测试任务（训练时的 $N, K$ 和测试时的 $N, K$ 不同）。

2、实验结果同时表明了注意力是个好东西啊~

以上只是个人观点，如果有理解不对的地方，欢迎大家指出啊~

辣椒油li

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
【论文理解】Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for the Characteristics of..

内容概览前言一、无监督元学习算法二、四个改进点1.Sufficient Episodic Sampling (SES） **为什么增加任务个数？** **如何增加任务个数？**2.Semi-Normalized Similarity metric (SNS）3.Hard Mixed Supports4.Task-specific Projection Head三、部分实验结果展示总结前言论文的名字太长了，放不进标题里，我再列一下论文的完整题目：Revisiting Unsupervised Me
复制链接

扫一扫