论文阅读理解 - Learning Spatial Regularization for Multi-label Image Classification

论文提出空间正则化网络(SRN)用于多标签图像分类,通过学习标签间的注意力图和空间关联性,提高了分类精度。SRN结合ResNet-101的特征,利用注意力机制关注图像相关区域,通过堆叠卷积捕捉标签间的复杂空间关系。
摘要由CSDN通过智能技术生成

Learning Spatial Regularization with Image-level Supervisionsfor Multi-label Image Classification

[Caffe-Code]

论文主要通过采用 Attention Model 学习图像的多标签间的关系,然后作为多标签图像分类的空间正则项进行模型训练.

1. 摘要

  • 多标签图像分类问题通过利用标签间的语义关联性 ,精度得到较大提高. 但由于一般情况下标签间的没有标注空间信息,故难以利用标签间的潜在空间关系.
  • 论文提出一个统一的深度网络结构,以同时了挖掘标签间的语义和空间关联性. 给定多标签图像,
    • 提出空间正则化网络(Spatial Regularization Network, SRN),学习所有标签间的注意力图(attention maps),并通过可学习卷积挖掘标签间的潜在关系. 结合正则化分类结果和 ResNet-101 网络的分类结果,可以持续提高图像分类表现.
  • 基于图像级标注,End-to-end 训练.
  • 当网络模型对具有空间相关标签的图片训练后,注意力机制(attention mechanism) 自适应地关注图像的相关区域.

2. 方法

这里写图片描述
Figure1. SRN结构例示. SRN只利用图像级监督信息,从标签注意力图学习标签间的语义和空间关系.
这里写图片描述
Figure2. 网络基础模型基于ResNet-101. 针对各标签分别学习得到独立的分类器. “Res-2048” 表示具有2048输出的 ResNet 网络模块. 下面红色虚线框为,SRN 采用ResNet-101的视觉特征作为输入,利用注意力机制学习得到标签间的正则空间关系. 结合主网络和SRN的分类结果得到最终的分类置信度.

当图像存在某个标签时,更多的注意力应该放在相关的区域.

标签注意力图编码了标签对应的丰富空间信息,且所有标签的加权注意力图是空间对齐的,因此采用堆积卷积操作能够容易地捕捉标签间的相对关联性.

为了能够捕捉标签间复杂空间关系,卷积应该具有足够大的接受野.

这里在不同卷积层解耦标签语义关联性学习和空间关联性学习. 直观性解释,一个标签可能只与其它标签中的一少部分语义相关,而对于语义无关的标签的注意力图进行空间关联性估计是没有必要的.
这里写图片描述
Figure4. 从加权注意力图学习空间正则因子的详细网络结构. 前两个卷积核为 1×1 的卷积层捕捉标签的语义相关性,第三个卷积层的卷积核为14×14,2048输出,学习标签间的空间关联性. 对第三个卷积层的 filters 进行分类分组,各小类具有 4 个核,对应输入特征图的一个 feature channel. 同一组下的4个核分别卷积相同的 feature channel,不同的核捕捉语义相关标签间的空间关联性.

2.1 概述

  • fcnn f c n n - ResNet

    • 输入: image, 224x224x3
    • 输出: feature map X, 14x14x1024
  • fcls f c l s - 多标签分类,

    • Res-2048(stride=2) - Res-2048 - Res-2048
    • 输入: feature map X, 14x14x1024
    • 输出: 预测的标签置信度
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值