挖掘弱监督视觉模式来从部分标注中学习
论文标题
Exploiting weakly supervised visual patterns to learn from partial annotations
论文来源
NeurIPS 2020, https://proceedings.neurips.cc/paper/2020/hash/066ca7bf90807fcd8e4f1eaef4e4e8f7-Abstract.html
1 背景梳理
标注图片中的所有类别耗费大量的人力物力,部分标注数据集的出现解决了这个问题。在OpenImages或者LVIS中,只有大约1%的标签被标注出来。在部分标注数据集中,每一个类别
c
c
c有其对应的两个子集
P
c
P_c
Pc和
N
c
N_c
Nc,分别包含了标有类别c的正样本图片和负样本图片,两个子集的和远小于数据集中图片的总数量。下图展示了OpenImages中的图片以及对应的正负标签。从图中我们可以看出,类似的图像被标注出的标签有很大的不同。如(a)中,human head作为正标签被标出,但在(b)和(c)中却没有出现。标准的分类模型在训练时会忽略未标注出的标签,但这会导致监督信息的减少,从而使分类效果下降。
2 论文贡献
文章的方法设计上的贡献主要有:
- 提出了一个简单而有效的baseline,其将未标注的标签都视为负标签。
- 提出了一种基于图像关系和标签关系的方法来软化baseline所施加的严格的负监督信号。
- 文章在5个大规模数据集中验证了所提出方法的有效性。
3 方法
给定数据集的标签集合 C C C和输入图像 x i x_i xi,该图像给出的标注包括正标签 P ( x i ) ⊂ C P(x_i)\subset C P(xi)⊂C和负标签 N ( x i ) ⊂ C N(x_i)\subset C N(xi)⊂C,其中 P ( x i ) ∩ N ( x i ) = ∅ P(x_i)\cap N(x_i)=\varnothing P(xi)∩N(xi)=∅且 ∣ P ( x i ) ∪ N ( x i ) ∣ ≪ ∣ C ∣ |P(x_i)\cup N(x_i)|\ll |C| ∣P(xi)∪N(xi)∣≪∣C∣。对于图片 x i x_i xi和类别 c c c,网络的输出为 y i , c = σ ( f c ( x i ; θ ) ) y_{i,c}=\sigma (f_c(x_i;\theta)) yi,c=σ(fc(xi;θ)),其中 f ( . ; θ ) f(.;\theta) f(.;θ)输出为 ∣ C ∣ |C| ∣C∣维, σ ( a ) = 1 / [ 1 + e x p ( − a ) ] \sigma(a)=1/[1+exp(-a)] σ(a)=1/[1+exp(−a)]。
本文定义了在训练部分标注的多标签分类模型时的不同的设置。
No exposure(NE): 对输入图像
x
x
x,训练时只使用标注出的正负标签,不使用未标注的标签。损失函数如下:
L
B
C
E
N
E
(
x
,
y
)
=
−
∑
c
+
∈
P
(
x
)
l
o
g
σ
(
y
c
+
)
−
∑
c
−
∈
N
(
x
)
l
o
g
σ
(
−
y
c
−
)
L_{BCE}^{NE}(x,y)=-\sum_{c^+\in P(x)}log\sigma(y_{c^+})- \sum_{c^-\in N(x)}log\sigma(-y_{c^-})
LBCENE(x,y)=−c+∈P(x)∑logσ(yc+)−c−∈N(x)∑logσ(−yc−)
这个方法丢失了大量的未标注的负标签的监督信息。
Weighted no exposure(wNE): 参考[1],每一张图片的损失函数由一个参数加权,该参数与图片标注出的标签数量相关。
Full exposure(FE): 将未标注的标签当作负标签。在大多数情况下,这是正确的标签,因为未标注的标签中负标签的数量远超过正标签的数量。未标注的标签标记为
U
(
x
)
=
C
−
(
P
(
x
)
∪
N
(
x
)
)
U(x)=C-(P(x)\cup N(x))
U(x)=C−(P(x)∪N(x)),损失函数如下:
L
B
C
E
F
E
(
x
,
y
)
=
−
∑
c
+
∈
P
(
x
)
l
o
g
σ
(
y
c
+
)
−
∑
c
−
∈
N
(
x
)
l
o
g
σ
(
−
y
c
−
)
−
∑
c
u
∈
U
(
x
)
l
o
g
σ
(
−
y
c
u
)
L_{BCE}^{FE}(x,y)=-\sum_{c^+\in P(x)}log\sigma(y_{c^+})- \sum_{c^-\in N(x)}log\sigma(-y_{c^-})- \sum_{c^u\in U(x)}log\sigma(-y_{c^u})
LBCEFE(x,y)=−c+∈P(x)∑logσ(yc+)−c−∈N(x)∑logσ(−yc−)−cu∈U(x)∑logσ(−ycu)
在使用这个损失函数时,需要为正标签分配更高的权重。但这个方法存在一个缺点:对于一些数据集中数量极少的类别,将未标注标签的正样本视为负样本会降低该类别的分类性能。
Soft exposure(SE): no exposure和full exposure两种方法简单但都有缺陷。本文提出了soft exposure损失函数,与FE方法中将未标注标签当作hard负标签不同的是,使用label smoothing减少了未标注标签的监督信号。损失函数如下所示:
L
B
C
E
S
E
(
x
,
y
)
=
−
∑
c
+
∈
P
(
x
)
l
o
g
σ
(
y
c
+
)
−
∑
c
−
∈
N
(
x
)
l
o
g
σ
(
−
y
c
−
)
−
∑
c
u
∈
U
(
x
)
l
o
g
σ
(
y
c
u
,
T
)
L_{BCE}^{SE}(x,y)=-\sum_{c^+\in P(x)}log\sigma(y_{c^+})- \sum_{c^-\in N(x)}log\sigma(-y_{c^-})- \sum_{c^u\in U(x)}log\sigma(y_{c^u},T)
LBCESE(x,y)=−c+∈P(x)∑logσ(yc+)−c−∈N(x)∑logσ(−yc−)−cu∈U(x)∑logσ(ycu,T)
其中
σ
(
a
,
T
)
=
1
/
[
1
+
e
x
p
(
−
a
/
T
)
]
\sigma(a,T)=1/[1+exp(-a/T)]
σ(a,T)=1/[1+exp(−a/T)]
T值的引入使得未标注的标签不被看作是hard负标签,而是看作soft标签。
对于每张图片而言,每一个未标注的标签都有各自的T值,而T值由该未标注标签和已标注标签的距离决定。为了衡量距离,文章提出了两种相似度衡量方法,一个基于标签关系( d L d_L dL),另一个基于图像关系( d I d_I dI)。
标签关系:
c
1
,
c
2
c_1,c_2
c1,c2的距离表示为
d
(
c
1
,
c
2
)
d(c_1,c_2)
d(c1,c2),
d
d
d可为欧氏距离或者余弦距离。每一种标签
c
c
c的特征向量(
ψ
(
c
)
\psi(c)
ψ(c))为所有带有标签c的图片的特征均值(图片的特征通过ImageNet预训练网络得到)。该图片的一个未标注标签
c
u
c^u
cu和正标签集合
P
(
x
)
P(x)
P(x)的距离可以由下式计算:
d
L
+
(
c
u
,
x
)
=
min
c
i
∈
P
(
x
)
d
(
c
u
,
c
i
)
d^+_L(c^u,x)=\min_{c_i\in P(x)}d(c^u,c_i)
dL+(cu,x)=ci∈P(x)mind(cu,ci)
同样的,可以计算
c
u
c^u
cu和负标签
N
(
x
)
N(x)
N(x)的距离
d
L
−
(
c
u
,
x
)
d^-_L(c^u,x)
dL−(cu,x)。
图像关系: 令
N
N
k
(
x
)
NN_k(x)
NNk(x)表示图像
x
x
x的k-近邻图像。对于图像
x
x
x的每一个
c
u
c^u
cu,我们考虑
N
N
k
(
x
)
NN_k(x)
NNk(x)中
c
u
c^u
cu被标注为正标签的所有图片
P
I
(
c
u
,
x
)
=
{
x
i
∣
x
∈
N
N
k
(
x
)
∩
c
u
∈
P
(
x
i
)
}
P^I(c^u,x)=\{x_i|x\in NN_k(x)\cap c^u\in P(x_i)\}
PI(cu,x)={xi∣x∈NNk(x)∩cu∈P(xi)}。同样的,我们考虑
c
u
c^u
cu被标注为负标签的所有图片
N
I
(
c
u
,
x
)
=
{
x
i
∣
x
∈
N
N
k
(
x
)
∩
c
u
∈
N
(
x
i
)
}
N^I(c^u,x)=\{x_i|x\in NN_k(x)\cap c^u\in N(x_i)\}
NI(cu,x)={xi∣x∈NNk(x)∩cu∈N(xi)}。我们定义
c
u
c^u
cu与正标签的距离:
d
I
+
(
c
u
,
x
)
=
{
1
,
P
I
(
c
u
,
x
)
=
∅
min
x
i
∈
P
I
(
c
u
,
x
)
d
(
x
,
x
i
)
,
o
t
h
e
r
w
i
s
e
d^+_I(c^u,x)=\left\{ \begin{aligned} &1, &P^I(c^u,x)=\varnothing \\ &\min_{x_i\in P^I(c^u,x)}d(x,x_i), &otherwise \end{aligned} \right.
dI+(cu,x)=⎩⎨⎧1,xi∈PI(cu,x)mind(x,xi),PI(cu,x)=∅otherwise
同样的,可以定义
c
u
c^u
cu与负标签的距离
d
I
−
(
c
u
,
x
)
d^-_I(c^u,x)
dI−(cu,x)。
结合
d
L
+
(
c
u
,
x
)
,
d
I
+
(
c
u
,
x
)
,
d
L
−
(
c
u
,
x
)
,
d
I
−
(
c
u
,
x
)
d^+_L(c^u,x), d^+_I(c^u,x), d^-_L(c^u,x), d^-_I(c^u,x)
dL+(cu,x),dI+(cu,x),dL−(cu,x),dI−(cu,x)得到:
d
+
(
c
u
,
x
)
=
min
(
d
L
+
(
c
u
,
x
)
,
d
I
+
(
c
u
,
x
)
)
d
−
(
c
u
,
x
)
=
min
(
d
L
−
(
c
u
,
x
)
,
d
I
−
(
c
u
,
x
)
)
\begin{aligned} d^+(c^u,x)=\min (d^+_L(c^u,x),d^+_I(c^u,x)) \\ d^-(c^u,x)=\min (d^-_L(c^u,x),d^-_I(c^u,x)) \end{aligned}
d+(cu,x)=min(dL+(cu,x),dI+(cu,x))d−(cu,x)=min(dL−(cu,x),dI−(cu,x))
T值由下式得到:
T
(
c
u
,
x
)
=
{
e
x
p
[
β
(
1
−
d
+
(
c
u
,
x
)
)
]
+
γ
,
d
+
(
c
u
,
x
)
<
d
−
(
c
u
,
x
)
−
e
x
p
[
β
(
1
−
d
−
(
c
u
,
x
)
)
]
+
γ
,
o
t
h
e
r
w
i
s
e
T(c^u,x)=\left\{ \begin{aligned} &exp[\beta (1-d^+(c^u,x))]+\gamma, &d^+(c^u,x)< d^-(c^u,x) \\ &-exp[\beta (1-d^-(c^u,x))]+\gamma, &otherwise \end{aligned} \right.
T(cu,x)={exp[β(1−d+(cu,x))]+γ,−exp[β(1−d−(cu,x))]+γ,d+(cu,x)<d−(cu,x)otherwise
论文中
k
=
10
,
β
=
5.0
,
γ
=
0
k=10,\beta=5.0,\gamma=0
k=10,β=5.0,γ=0
4 实验
本文在CIFAR100,MS COCO detection,MS COCO panoptic segmentation,OpenImage和LVIS这五个数据集上进行试验。前三个数据集为完全标注数据集。这里仅展示在MS COCO detection数据集上的结果。
MS COCO数据集有80个类别。由于MS COCO为完全标注的数据集,需要通过随机去除图像中标签的方式,生成有不同正标签标出率的部分标注数据集。在这个数据集中,每一张图片有大约有7个正标签,剩余的大约73个未标出的标签被认为是负标签。为了使正负标签有相似数量,在图片中随机将未标出的标签选择 1 - 1.5倍正标签数量作为负标签。
下图(a)比较了No exposure(NE), Weighted no exposure(wNE),Full exposure(FE),Soft exposure(SE)的结果。结果中有两点值得注意:一、FE 比 wNE 和 NE 结果稍好,说明缺少负标签会影响分类性能。由于在这个数据集中,负标签数量远大于正标签数量,将未标出的标签当作负标签是一个较好的baseline。二、当正标签只剩下10%时,SE的效果远好于其他方法的效果。
在图(b)中,LS(LABEL SMOOTHING)为所有的标签赋予相同的T值,且不与标签关系或者图像关系相关。SE-L和SE-I分别为只利用标签关系或图片关系来决定标签的T值。SE-I方法表现不好是因为从K-近邻图像中得到的标签没有包含所有的未标注标签。
5 总结
论文探讨了如何利用带有部分标签的数据集来进行多标签图像分类。论文根据未标注标签的利用方式,将这个问题分为NE、wNE、FE和SE四种设定。论文认为不应该把部分标注的数据集看作是噪声标记的数据集,而是应该采用一种能够利用未标注的标签来提高训练效率的训练策略。本文利用图像和标签的关系从未标注的标签中获得更多的监督信息。
6 参考文献
[1]Thibaut Durand, Nazanin Mehrasa, and Greg Mori. Learning a deep convnet for multi-label classification with partial labels. In CVPR, 2019.