核心思想
小样本学习的挑战在于:识别新类别样本的过程容易受颜色、纹理、物体大小和背景的影响(特异性)。作者把与新样本相关的基类数据的语义标签信息迁移到新样本识别中,避免新样本的特异性影响,帮助小样本的学习,实现泛化到新样本。使用知识图建模了基类和新类别之间的相关性,提出了Knowledge Graph Transfer Network
.
样本特征和分类器的关系
典型的分类模型由特征提取器 ϕ \phi ϕ和分类器 f f f组成。设输入为 x i m x_{im} xim,预测的标签为 y ^ = arg max k f k ( x ) = arg max k p ( y = k ∣ x ) \hat{y}={\argmax}_k \, f_k(x)={\argmax}_k \, p(y=k|x) y^=argmaxkfk(x)=argmaxkp(y=k∣x),其中
x
=
ϕ
(
x
i
m
)
f
k
(
x
)
=
w
k
T
x
+
b
k
p
(
y
=
k
∣
x
)
=
e
f
k
(
x
)
∑
i
=
1
K
e
f
i
(
x
)
x = \phi (x_{im}) \\ f_k(x) = {w_k}^{T}x + b_k \\ p(y=k|x)=\frac{e^{f_k(x)}} { \sum_{i=1}^{K} e^{f_i(x)}}
x=ϕ(xim)fk(x)=wkTx+bkp(y=k∣x)=∑i=1Kefi(x)efk(x)
f
k
(
x
)
f_k(x)
fk(x)为第
k
k
k个类别的分数,
w
k
w_k
wk为第
k
k
k个类别分类器对应的参数。
实验发现,样本特征
x
x
x和分类器
w
k
w_k
wk具有相关性。
Few-Shot Image Recognition by Predicting Parameters from Activations这篇文章也有提到,见slide
理论解释
f
k
(
x
)
=
w
k
T
x
+
b
k
=
−
1
2
∥
x
−
w
k
∥
2
+
1
2
∥
w
k
∥
2
+
1
2
∥
x
∥
2
+
b
k
f_k(x)={w_k}^{T}x+b_k=-\frac{1}{2}\|x-w_k\|^2 + \frac{1}{2}\|w_k\|^2 + \frac{1}{2}\|x\|^2 + b_k
fk(x)=wkTx+bk=−21∥x−wk∥2+21∥wk∥2+21∥x∥2+bk
如果
b
k
=
0
b_k=0
bk=0,
w
k
w_k
wk标准化,那么有
y
^
=
arg max
k
f
k
(
x
)
=
arg max
k
−
1
2
∥
x
−
w
k
∥
2
=
arg min
k
∥
x
−
w
k
∥
2
\hat{y}={\argmax}_k \, f_k(x)={\argmax}_k \, -\frac{1}{2}\|x-w_k\|^2={\argmin}_k \, \|x-w_k\|^2
y^=argmaxkfk(x)=argmaxk−21∥x−wk∥2=argmink∥x−wk∥2
即预测类别本质是在度量特征
x
x
x与分类器
w
k
w_k
wk的相似性。
网络框架
整个网路由三个模块组成:知识图迁移模块、特征提取模块和预测模块。
知识图迁移模块:图的节点表示类别(基类+新类)的分类器权重,边表示标签的语义关系,使用GGNN模型传播信息,输出具有指导性的分类器权重。
训练过程
Stage1:
基类数据上训练特征提取器,使用了 Squared Gradient Magnitude loss.
Stage2:
固定特征提取器参数,使用1:1的比例抽取基类样本和新类样本,训练模型。损失函数如下