Dense Classification and Implanting for Few-Shot Learning论文笔记

最新推荐文章于 2022-04-10 16:44:40 发布

Bai.S

最新推荐文章于 2022-04-10 16:44:40 发布

阅读量1.4k

点赞数 4

分类专栏：小样本学习文章标签： few-shot dense classification implanting

本文链接：https://blog.csdn.net/qq_36406693/article/details/102726526

版权

小样本学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文地址:https://arxiv.org/pdf/1903.05050.pdf

摘要

基于较少的训练数据对神经网络进行训练一直是一个比较困难的问题，本篇论文设计了一种将较大的数据集中中学习到的知识迁移到较小的数据集的方法来完成小样本学习任务。论文主要的创新点如下：

设计了一种基于特征图的密集分类器，首次探索了局部信息在小样本学习中的作用。
迁移，具体表现为在预训练好的模型之上增添新的神经元进行学习，以适应新的数据集。

方法介绍

论文将训练阶段分为两个阶段，第一个阶段，在较大规模的数据集上训练一个参数化的分类器即密集分类器，然后在第二阶段固定第一阶段Embedding模块的参数并引入新的神经元，通过测试集（数量较少的，训练集中未出现的类别）的支撑集(support set)对Embedding新引入的参数进行更新，以便于模型可以提取得到基于特定任务的特征信息。

密集预测（Dense classification）

首先，在小样本学习问题中，对于每一个输入图片X，经过Embedding网络以后会得到一个，r*d 的特征图，其中，r = (H * W)，d为提取得到特征图的通道数，已有的方法对Embedding网络提取出的特征的处理方式可以分为两大类，一种是直接通过一层或者是多层全连接层来预测属于图片属于哪一个类别，另一中则是直接通过global pooling 对特征图进行降维，得到一个d维的向量，然后进行预测。第一种方法虽然具有较强的判别性但是很容易过拟合，第二种则提取得到的特征在d不够大的情况下，往往会缺少判别性。
因此作者提取了一种新的预测方法，具体如下图所示：

作者根据训练集中数据的类别数C，设计C个d维度的类别向量，通过计算特征图每一个空间位置的向量与每一个类别向量的尺度余弦相似度（scaled cosine similarity）来判断当前位置的特征向量属于哪个类别，具体的计算公式为：

其中 $w$ 代表的即为类别向量， $\phi_{\theta}^{(k)}(x)$ 代表第k个空间位置的特征向量， $\phi_{\theta}(x)$ 即为Embedding 函数。r = h * w, c为类别数。 $s_r$ 为尺度余弦相似度，通过约束每一个点的预测结果均为输入图片的类别，从而约束Embedding提取到的特征在每一个空间位置上都能最大化的反应出该图片的类别信息，具体的损失函数如下：

其中X为输入图片集和，Y为对应的标签，n为输入图片的个数。

迁移

在较大的数据集上进行训练以后，则模型需要能够在拥有较少的的support 数据的情况下可以预测全新的新颖的类别的图片。在这一步，作者对上一步训练好的Embedding进行迁移，首先移除上一步学习到的类别向量，只保留Embedding模块的参数，并将其固定，引入新的神经元来对新的类别进行适应，具体的框架如下图所示：

如上图所示，模型的上半部分即为粉红色模块即代表的是新增的神经元，通过新加入类别的的support 集合的图片对改模型进行训练，不同的是在该阶段不加入新的类别变量，而是直接通过全局池化操作对提取到的特征进行降维以后，然后经过softmax函数直接得到预测结果，然后同样利用交叉熵损失对模型进行约束。
迁移完毕以后，即是对查询集（query set）的预测，作者这里采用和原型网络(prototypical network)相同的做法，提取出support 中每个类别的特征向量(r * d)，然后对特征向量进行全局池化以后得到d维的特征向量，将此特征向量作为类别向量，然后与第一阶段的做法相同，对于输入的查询集的每一张图片，提取出一个 $r * d$ 的特征向量，然后预测每一个空间位置上的特征向量的类别，分到个数最多的空间位置向量的类别即为输入图片的类别。

其中 $p_j$ 即为support每个类别所提取出的特征向量。

实验结果

作者在 miniImageNet 以及cifar 100 上对自己的实验进行了验证，均达到了state-of-the-art 的水平，结果如下:

mini-imagenet
在这里插入图片描述

cifar-100

总结

本篇论文作者巧妙的利用了迁移学习的思想，并较好的利用了图片的局部特征，放大了局部特征对图片整体的表示意义，想法十分巧妙。不过论文中没有提到代码是否开源，如果代码开源以后还是十分建议去学习一下。

Bai.S

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Dense Classification and Implanting for Few-Shot Learning论文笔记

论文地址:https://arxiv.org/pdf/1903.05050.pdf摘要基于较少的训练数据对神经网络进行训练一直是一个比较困难的问题，本篇论文设计了一种将较大的数据集中中学习到的知识迁移到较小的数据集的方法来完成小样本学习任务。论文主要的创新点如下：设计了一种基于特征图的密集分类器，首次探索了局部信息在小样本学习中的作用。迁移，具体表现为在预训练好的模型之上增添新的神经元进...
复制链接

扫一扫