小样本学习&元学习经典论文整理||持续更新
核心思想
本文提出一种基于度量学习的小样本学习算法(SARN),其在Relation Network的基础上增加了自注意力机制,使网络能够提取到非局部的远距离的依赖信息。这是什么意思呢?就是普通的卷积神经网络只能提取到局部区域(感受野)内的依赖关系,而自注意力机制则是希望寻找到每个像素点与其他所有像素点之间的依赖关系,或者叫做相关性。这样做的原因是,支持集图像和查询集图像中统一特征的物体其空间位置可能并不相同,比如两幅狗的照片,一张图片中狗的尾巴在图像的右上角,另一幅图片中狗的尾巴在图像的左下角,如果只是简单的将两幅图像的特征图级联,并进行卷积的话,是无法寻找到右上角和左下角两个尾巴特征之间的关系的。自注意力机制就是为了解决这个问题,本文提出的网络结构如下图所示
整个网络由特征提取模块、自注意力模块和相关性模块构成,特征提取网络和相关性模块不再详述。自注意力模块首先把支持集图像的特征图和查询集图像的特征图级联起来,得到特征图
p
∈
R
C
×
H
×
W
p\in\mathbb{R}^{C\times H\times W}
p∈RC×H×W,对于位置
i
i
i处,自注意力模块的输出
o
i
o_i
oi如下
其中
p
i
p_i
pi就是输入特征图位置
i
i
i处对应的特征值,
A
A
A和
B
B
B都是输入特征图
p
p
p经过1 * 1卷积得到的(两个卷积核不共享),并将特征图铺平,
A
,
B
∈
R
C
×
N
A,B\in \mathbb{R}^{C\times N}
A,B∈RC×N,
N
=
H
×
W
N=H \times W
N=H×W;
h
(
A
i
,
B
j
)
h(A_i,B_j)
h(Ai,Bj)就是用于计算位置
i
i
i和位置
j
j
j之间关系的过程,本文采用带有softmax的高斯函数
另一个函数
t
(
p
j
)
t(p_j)
t(pj)用于计算输入特征图
p
p
p在位置
j
j
j处的表征,同样是一个1 * 1的卷积,并将结果铺平。
N
\mathcal{N}
N表示归一化因子,计算过程如下
上述过程重复执行两次,得到带有自注意力图的特征图
o
o
o,再经过两个全连接层输出查询集图像和支持集图像之间的相似性得分。
实现过程
网络结构
特征提取网络采用4-Conv结构,相关性模块采用两个全连接层,一个输出维度为8,另一个输出维度为1.
损失函数
本文把该任务看作一个回归任务,采用了MSE损失函数
r
i
,
j
r_{i,j}
ri,j表示
r
,
j
r,j
r,j两幅图的相似性得分。
算法推广
本文算法可以用于零样本学习任务,只需要把特征提取网络改造为能够提取语义信息的模块即可。
创新点
- 引入了自注意力机制,寻找远距离的像素之间的依赖关系
- 把任务归结为相似性得分的回归任务
算法评价
本文是在Relation Network的基础上进行改进的文章,其引入的自注意力机制是再目标识别,目标检测的任务中应用非常广泛的一种方法。直觉上来看,寻找不同像素点之间的对应关系,尤其是相距较远的像素点之间的对应关系是很有必要的。但实验结果看来,该方法的改进作用并不明显。
如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。