《Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification》

引言

多label的图像分类是一个基础且具有挑战性的task。

然而传统的方法难以对multi-label图像中的label之间的潜在空间关系进行建模。由于通常不提供标签的空间注释。

本文利用标签之间的语义和空间关系,只进行图像级监督。Spatial Regularization Network (SRN)产生所有labels的attention map,并且通过可学习卷积来获取他们之间潜在的关系。

论文所提出的网络可以同时捕获label之间的语义、空间的关系。

contributions:

1、提出一个end to end网络作为multi-label图像分类。通过训练可学习卷积在labels的attention map探索了labels在语义及空间之间的关系。对学习模型的研究和可视化表明,我们的模型能够有效地捕获标签的语义和空间关系。

2、所提出的算法具有较好的泛化能力。

Methodology

Main Net for Multilabel Classification

首先关于主网络部分,主网络部分采用ResNet-101结构,由不同输出维度的repetitive building blocks组成。主网络的“res4b22 relu”层输出的特征作为SRN的输入,对于学习空间正则化有足够的分辨率。主网络的输出为含有label的数目,每个label是否存在。

网络的结构如下图所示。所提出的SRN由两部分组成。第一个子网络是通过image-level的监督学习label的attention maps。第二个子网络是用于基于所学习到label的attention  maps来获得labels的空间正则化。

The proposed Spatial Regularization Net (SRN) takes visual features from the main net as inputs and learns to regularize spatial relations between labels.而SRN学习的relations是基于多个labels学习得到的attention maps。主网络的结果与SRN的结果最终整合到一起,输出最终的分类结果。整个网络是end to end训练的

SRN由两个部分组成,第一个subnetwork学习label attentionn maps基于image-level supervisions,第二个sbunetwork捕获labels的空间正则化基于所学习的label的attention map

Label Attention from Imagelevel Supervisions

Multi-label image is composed of multiple image regions that are semantically related to different labels.虽然,区域的位置一般不会作为先验给到,但是当在预测某个label的时候,更多的attention就会给到相应的区域。在本文中,网络学习使用attention机制,来预测每个标签的相关图像区域。而学习到的attentionn map会被用作学习labels的空间正则化。

子网络的输入为来自主网络的“res4b22 relu”的feature map,目标是对于每个独立的labels都产生label attention 值,再通过softmax function获取最终的label attention maps

直观来说,如果某个label是输入图像已经被标记了的,那对应的图像区域将有更高的attention 值。

attention 估计器is modeled as 3 convolution layers with 512 kernels of 1×1, 512 kernels of 3×3, and C kernels of 1×1, respectively. The ReLU nonlinearity operations are performed following the first two convolution layers.

然而,由于attention map的GT是不能获得的,通过image-level的multi-label监督。在原始的ResNet中,视觉特征在所有空间位置上取平均值。而在文中,作者希望attention map在label出的区域有更高的值,因此为权重平均

Compared with the original averaged visual features shared by all labels, the weightedly-averaged visual feature vector vl is more related to image regions corresponding to label l.对于这样的一个特征向量,被用于学习一个线性的分类器(论文中用一个conv层)来估算label l的confidence(置信度)。故此下面的confidence map就是每个区域是label的置信度

通过最小化交叉熵损失,只采用image来训练,就可以实现训练attention estimator的参数。所学习的attention maps如图3所示

基于attention maps的spatially aggregating label confidences(空间聚集的标签置信度)。公式7可以看作为在特征映射X的每个位置应用标签特定的线性分类器,然后基于attention maps在空间上label的置信度。通过“conv1”来获得confidence map。label的attention map A以及confidence map S通过乘法融合(有点类似octave 中的加法融合),然后再通过空间最大池化来获得label的置信度向量

这一系列操作,保证了可以学习到label的attention maps以及生成attention maps的confidence maps

Spatial Regularizations from Attention Maps

label的attention maps编码了label丰富的空间信息。可以用于给labels生成更加鲁棒的空间正则化。而然,每个labels的attention maps总是和为1,这会强调了错误的位置,因此学习没有label存在的attention maps可能会导致错误的空间正则化,因此作者提出学习空间正则化通过权重attention maps

其中,用于将label的置信度S转换到【0,1】。◦ indicates element-wise multiplication.The weighted attention maps U encode both local confidences of attention and global visibility of each label

给定权重的attention maps U(weighted attention maps)label的正则化function需要去估计label基于空间信息的置信度

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值