Exploiting weakly supervised visual patterns to learn from partial annotations

挖掘弱监督视觉模式来从部分标注中学习

论文标题

Exploiting weakly supervised visual patterns to learn from partial annotations

论文来源

NeurIPS 2020, https://proceedings.neurips.cc/paper/2020/hash/066ca7bf90807fcd8e4f1eaef4e4e8f7-Abstract.html

1 背景梳理

标注图片中的所有类别耗费大量的人力物力,部分标注数据集的出现解决了这个问题。在OpenImages或者LVIS中,只有大约1%的标签被标注出来。在部分标注数据集中,每一个类别 c c c有其对应的两个子集 P c P_c Pc N c N_c Nc,分别包含了标有类别c的正样本图片和负样本图片,两个子集的和远小于数据集中图片的总数量。下图展示了OpenImages中的图片以及对应的正负标签。从图中我们可以看出,类似的图像被标注出的标签有很大的不同。如(a)中,human head作为正标签被标出,但在(b)和(c)中却没有出现。标准的分类模型在训练时会忽略未标注出的标签,但这会导致监督信息的减少,从而使分类效果下降。

2 论文贡献

文章的方法设计上的贡献主要有:

  • 提出了一个简单而有效的baseline,其将未标注的标签都视为负标签。
  • 提出了一种基于图像关系和标签关系的方法来软化baseline所施加的严格的负监督信号。
  • 文章在5个大规模数据集中验证了所提出方法的有效性。

3 方法

给定数据集的标签集合 C C C和输入图像 x i x_i xi,该图像给出的标注包括正标签 P ( x i ) ⊂ C P(x_i)\subset C P(xi)C和负标签 N ( x i ) ⊂ C N(x_i)\subset C N(xi)C,其中 P ( x i ) ∩ N ( x i ) = ∅ P(x_i)\cap N(x_i)=\varnothing P(xi)N(xi)= ∣ P ( x i ) ∪ N ( x i ) ∣ ≪ ∣ C ∣ |P(x_i)\cup N(x_i)|\ll |C| P(xi)N(xi)C。对于图片 x i x_i xi和类别 c c c,网络的输出为 y i , c = σ ( f c ( x i ; θ ) ) y_{i,c}=\sigma (f_c(x_i;\theta)) yi,c=σ(fc(xi;θ)),其中 f ( . ; θ ) f(.;\theta) f(.;θ)输出为 ∣ C ∣ |C| C维, σ ( a ) = 1 / [ 1 + e x p ( − a ) ] \sigma(a)=1/[1+exp(-a)] σ(a)=1/[1+exp(a)]

本文定义了在训练部分标注的多标签分类模型时的不同的设置。

No exposure(NE): 对输入图像 x x x,训练时只使用标注出的正负标签,不使用未标注的标签。损失函数如下:
L B C E N E ( x , y ) = − ∑ c + ∈ P ( x ) l o g σ ( y c + ) − ∑ c − ∈ N ( x ) l o g σ ( − y c − ) L_{BCE}^{NE}(x,y)=-\sum_{c^+\in P(x)}log\sigma(y_{c^+})- \sum_{c^-\in N(x)}log\sigma(-y_{c^-}) LBCENE(x,y)=c+P(x)logσ(yc+)cN(x)logσ(yc)
这个方法丢失了大量的未标注的负标签的监督信息。

Weighted no exposure(wNE): 参考[1],每一张图片的损失函数由一个参数加权,该参数与图片标注出的标签数量相关。

Full exposure(FE): 将未标注的标签当作负标签。在大多数情况下,这是正确的标签,因为未标注的标签中负标签的数量远超过正标签的数量。未标注的标签标记为 U ( x ) = C − ( P ( x ) ∪ N ( x ) ) U(x)=C-(P(x)\cup N(x)) U(x)=C(P(x)N(x)),损失函数如下:
L B C E F E ( x , y ) = − ∑ c + ∈ P ( x ) l o g σ ( y c + ) − ∑ c − ∈ N ( x ) l o g σ ( − y c − ) − ∑ c u ∈ U ( x ) l o g σ ( − y c u ) L_{BCE}^{FE}(x,y)=-\sum_{c^+\in P(x)}log\sigma(y_{c^+})- \sum_{c^-\in N(x)}log\sigma(-y_{c^-})- \sum_{c^u\in U(x)}log\sigma(-y_{c^u}) LBCEFE(x,y)=c+P(x)logσ(yc+)cN(x)logσ(yc)cuU(x)logσ(ycu)
在使用这个损失函数时,需要为正标签分配更高的权重。但这个方法存在一个缺点:对于一些数据集中数量极少的类别,将未标注标签的正样本视为负样本会降低该类别的分类性能。

Soft exposure(SE): no exposure和full exposure两种方法简单但都有缺陷。本文提出了soft exposure损失函数,与FE方法中将未标注标签当作hard负标签不同的是,使用label smoothing减少了未标注标签的监督信号。损失函数如下所示:
L B C E S E ( x , y ) = − ∑ c + ∈ P ( x ) l o g σ ( y c + ) − ∑ c − ∈ N ( x ) l o g σ ( − y c − ) − ∑ c u ∈ U ( x ) l o g σ ( y c u , T ) L_{BCE}^{SE}(x,y)=-\sum_{c^+\in P(x)}log\sigma(y_{c^+})- \sum_{c^-\in N(x)}log\sigma(-y_{c^-})- \sum_{c^u\in U(x)}log\sigma(y_{c^u},T) LBCESE(x,y)=c+P(x)logσ(yc+)cN(x)logσ(yc)cuU(x)logσ(ycu,T)
其中 σ ( a , T ) = 1 / [ 1 + e x p ( − a / T ) ] \sigma(a,T)=1/[1+exp(-a/T)] σ(a,T)=1/[1+exp(a/T)]
T值的引入使得未标注的标签不被看作是hard负标签,而是看作soft标签。

对于每张图片而言,每一个未标注的标签都有各自的T值,而T值由该未标注标签和已标注标签的距离决定。为了衡量距离,文章提出了两种相似度衡量方法,一个基于标签关系( d L d_L dL),另一个基于图像关系( d I d_I dI)。

标签关系: c 1 , c 2 c_1,c_2 c1,c2的距离表示为 d ( c 1 , c 2 ) d(c_1,c_2) d(c1,c2) d d d可为欧氏距离或者余弦距离。每一种标签 c c c的特征向量( ψ ( c ) \psi(c) ψ(c))为所有带有标签c的图片的特征均值(图片的特征通过ImageNet预训练网络得到)。该图片的一个未标注标签 c u c^u cu和正标签集合 P ( x ) P(x) P(x)的距离可以由下式计算:
d L + ( c u , x ) = min ⁡ c i ∈ P ( x ) d ( c u , c i ) d^+_L(c^u,x)=\min_{c_i\in P(x)}d(c^u,c_i) dL+(cu,x)=ciP(x)mind(cu,ci)
同样的,可以计算 c u c^u cu和负标签 N ( x ) N(x) N(x)的距离 d L − ( c u , x ) d^-_L(c^u,x) dL(cu,x)

图像关系: N N k ( x ) NN_k(x) NNk(x)表示图像 x x x的k-近邻图像。对于图像 x x x的每一个 c u c^u cu,我们考虑 N N k ( x ) NN_k(x) NNk(x) c u c^u cu被标注为正标签的所有图片 P I ( c u , x ) = { x i ∣ x ∈ N N k ( x ) ∩ c u ∈ P ( x i ) } P^I(c^u,x)=\{x_i|x\in NN_k(x)\cap c^u\in P(x_i)\} PI(cu,x)={xixNNk(x)cuP(xi)}。同样的,我们考虑 c u c^u cu被标注为负标签的所有图片 N I ( c u , x ) = { x i ∣ x ∈ N N k ( x ) ∩ c u ∈ N ( x i ) } N^I(c^u,x)=\{x_i|x\in NN_k(x)\cap c^u\in N(x_i)\} NI(cu,x)={xixNNk(x)cuN(xi)}。我们定义 c u c^u cu与正标签的距离:
d I + ( c u , x ) = { 1 , P I ( c u , x ) = ∅ min ⁡ x i ∈ P I ( c u , x ) d ( x , x i ) , o t h e r w i s e d^+_I(c^u,x)=\left\{ \begin{aligned} &1, &P^I(c^u,x)=\varnothing \\ &\min_{x_i\in P^I(c^u,x)}d(x,x_i), &otherwise \end{aligned} \right. dI+(cu,x)=1,xiPI(cu,x)mind(x,xi),PI(cu,x)=otherwise
同样的,可以定义 c u c^u cu与负标签的距离 d I − ( c u , x ) d^-_I(c^u,x) dI(cu,x)

结合 d L + ( c u , x ) , d I + ( c u , x ) , d L − ( c u , x ) , d I − ( c u , x ) d^+_L(c^u,x), d^+_I(c^u,x), d^-_L(c^u,x), d^-_I(c^u,x) dL+(cu,x),dI+(cu,x),dL(cu,x),dI(cu,x)得到:
d + ( c u , x ) = min ⁡ ( d L + ( c u , x ) , d I + ( c u , x ) ) d − ( c u , x ) = min ⁡ ( d L − ( c u , x ) , d I − ( c u , x ) ) \begin{aligned} d^+(c^u,x)=\min (d^+_L(c^u,x),d^+_I(c^u,x)) \\ d^-(c^u,x)=\min (d^-_L(c^u,x),d^-_I(c^u,x)) \end{aligned} d+(cu,x)=min(dL+(cu,x),dI+(cu,x))d(cu,x)=min(dL(cu,x),dI(cu,x))
T值由下式得到:

T ( c u , x ) = { e x p [ β ( 1 − d + ( c u , x ) ) ] + γ , d + ( c u , x ) < d − ( c u , x ) − e x p [ β ( 1 − d − ( c u , x ) ) ] + γ , o t h e r w i s e T(c^u,x)=\left\{ \begin{aligned} &exp[\beta (1-d^+(c^u,x))]+\gamma, &d^+(c^u,x)< d^-(c^u,x) \\ &-exp[\beta (1-d^-(c^u,x))]+\gamma, &otherwise \end{aligned} \right. T(cu,x)={exp[β(1d+(cu,x))]+γ,exp[β(1d(cu,x))]+γ,d+(cu,x)<d(cu,x)otherwise
论文中 k = 10 , β = 5.0 , γ = 0 k=10,\beta=5.0,\gamma=0 k=10,β=5.0,γ=0

4 实验

本文在CIFAR100,MS COCO detection,MS COCO panoptic segmentation,OpenImage和LVIS这五个数据集上进行试验。前三个数据集为完全标注数据集。这里仅展示在MS COCO detection数据集上的结果。

MS COCO数据集有80个类别。由于MS COCO为完全标注的数据集,需要通过随机去除图像中标签的方式,生成有不同正标签标出率的部分标注数据集。在这个数据集中,每一张图片有大约有7个正标签,剩余的大约73个未标出的标签被认为是负标签。为了使正负标签有相似数量,在图片中随机将未标出的标签选择 1 - 1.5倍正标签数量作为负标签。

下图(a)比较了No exposure(NE), Weighted no exposure(wNE),Full exposure(FE),Soft exposure(SE)的结果。结果中有两点值得注意:一、FE 比 wNE 和 NE 结果稍好,说明缺少负标签会影响分类性能。由于在这个数据集中,负标签数量远大于正标签数量,将未标出的标签当作负标签是一个较好的baseline。二、当正标签只剩下10%时,SE的效果远好于其他方法的效果。
在图(b)中,LS(LABEL SMOOTHING)为所有的标签赋予相同的T值,且不与标签关系或者图像关系相关。SE-L和SE-I分别为只利用标签关系或图片关系来决定标签的T值。SE-I方法表现不好是因为从K-近邻图像中得到的标签没有包含所有的未标注标签。

5 总结

论文探讨了如何利用带有部分标签的数据集来进行多标签图像分类。论文根据未标注标签的利用方式,将这个问题分为NE、wNE、FE和SE四种设定。论文认为不应该把部分标注的数据集看作是噪声标记的数据集,而是应该采用一种能够利用未标注的标签来提高训练效率的训练策略。本文利用图像和标签的关系从未标注的标签中获得更多的监督信息。

6 参考文献

[1]Thibaut Durand, Nazanin Mehrasa, and Greg Mori. Learning a deep convnet for multi-label classification with partial labels. In CVPR, 2019.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Bert是一种在自然语言处理中被广泛使用的模型,其在各种任务中表现出了出色的性能。然而,对于方面级情感分析,Bert并不直接适用。因此,需要对Bert进行利用,并通过修改和扩展来适应这一任务。 端到端(end-to-end)的方面级情感分析是指通过一个模型直接从文本中提取方面和情感信息。为了利用Bert进行端到端的方面级情感分析,首先需要对数据进行预处理,并将其转换成Bert模型所接受的输入格式。这包括将文本分段、添加特殊标记以及填充序列等操作。 在Bert模型的基础上,需要添加相关的层来实现方面级情感分析。一种常见的方法是利用注意力机制来捕获方面词与其他词之间的关系。通过计算不同词之间的注意力权重,可以将方面词的相关信息传递给其他词,从而更好地理解整个文本。另外,也可以添加一些分类层来预测每个方面的情感。 为了更好地利用Bert,还可以使用领域特定的语料库来进行预训练。通过在大规模的语料库上进行预训练,模型可以更好地理解特定领域的文本,并提升方面级情感分析的性能。 此外,还可以通过调整Bert模型的超参数来进一步改善性能。例如,可以调整学习率、批大小和训练周期等超参数,以获得更好的结果。 总之,“exploiting bert for end-to-end aspect-based sentiment analysis”意味着通过对Bert进行修改和扩展,将其应用于端到端的方面级情感分析任务中,以提升模型的性能和效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值