3.Spatially Attentive Output Layer for Image Classification 论文阅读

第一次写阅读论文的博客,因公式太多,在csdn上实在敲不下去了。索性直接把word版本上传了上去,仅供大家参考!(阅读论文的时候,为了加深对内容的理解,把公式都给敲了上去,如有错误,请见谅。语言方面,会比纯机器翻译好一点,至少不会那么生硬啊)
Title:Spatially Attentive Output Layer for Image Classification(用于图像分类的空间注意输出层)
Writers:Ildoo Kim∗ Woonhyuk Baek∗ Sungwoong Kim
Conference:CVPR 2020
作者单位:Kakao Brain, Seongnam, South Korea
论文地址:https://ieeexplore.ieee.org/document/9156593
代码:开源过,但是被作者又删除了

Abstract

大多数用于图像分类的卷积神经网络(cnn)使用全局平均池(GAP)和output logits的全连接(FC)层。然而,这种空间聚集过程固有地限制了输出层位置特定信息的利用,尽管这种空间信息可以有利于分类。在本文中,我们提出了一个新的空间输出层,在现有的卷积特征映射的基础上显式地利用特定位置的输出信息。具体地说,在给定的空间特征映射下,通过在空间logits上引入注意掩模,(by employing a attention mask on spatial logits. )用空间注意输出层(SAOL)代替先前的GAP-FC层。所提出的位置特定注意有选择地聚集目标区域内的空间logits,这不仅可以提高性能,而且可以获得空间可解释的输出。此外,所提出的SAOL还允许充分利用特定位置的自我监督和自我蒸馏来提高训练中的泛化能力。所提出的具有自监督和自蒸馏功能的SAOL可以很容易地插入到现有的cnn中。在具有代表性体系结构的各种分类任务上的实验结果表明,SAOL在几乎相同的计算开销下,性能得到了一致的改善。

1.Introduction

深度卷积神经网络(CNNs)在图像分类[23,16]、目标检测[13,31,27]和语义分割[28,2]等各种计算机视觉任务中取得了长足的进步。特别是对卷积块及其连接进行了大量的研究,如深度可分离卷积[5]、可变形ConvNet[7]、ResNet(残差网络)[16]和NASNet[48]等,以改进特征表示。然而,与成熟的(多尺度)空间特征提取的卷积体系结构相比,特征图生成分类logits的输出模块与标准模块基本相同,该模块由全局平均池(GAP)层和完全连接(FC)层组成。尽管研究表明,具有这种特征聚合的cnn在一定程度上可以保持其定位能力[26,46,47],但原则上,这些cnn在充分利用图像分类输出logits的显式本地化的优势方面有一定的限制。
最近,局部特定类响应的使用引起了图像分类的越来越多的关注,这使得图像分类具有以下三个主要优点:
(1)它可以通过视觉解释来影响CNN的决策
(2)空间注意机制可以通过只关注与所考虑的标签[21,38,36,10]语义相关的区域来提高性能;
(3)它能够利用基于空间变换的辅助自监督损失或任务,从而提高泛化能力
然而,以往的方法大多是通过传统的类激活映射技术,如类激活映射(CAM)[47]和梯度加权类激活映射(Grad-CAM)[33]来获得空间logits或注意映射。他们仍然利用GAP进行图像级预测,因此只定位了目标对象的一小部分[25]或在类[37]中参与不可分割的区域。这种不精确的注意力映射不仅阻碍了它提高分类精度的应用,也限制了它关于空间标记的自我监督在诸如旋转和翻转[15]或朴素的注意力裁剪和丢弃[19]等简单空间变换下保持注意一致性的应用。
因此,我们建议通过使用一个新的输出模块,即空间注意输出层(SAOL),来生成更明确、更精确的空间logits和注意力图,并应用有用的自我监督。具体来说,从特征图中,我们分别得到了空间logits(特定位置类响应)和空间注意图。然后,将注意权值用于空间logits的加权和,得到分类结果。图1显示了与传统输出层相比,提议的输出层的总体结构。
在这里插入图片描述
所提出的输出过程可以看作是空间逻辑上的加权平均池,以选择性地集中在目标类区域上。为了获得更精确的空间逻辑,我们将多尺度空间logits聚合起来,这些逻辑是由用于语义分割的解码器模块启发的[28,32,3]。注意,SAOL可以在前向传播过程中直接生成空间可解释的注意输出和目标对象位置,而无需任何后处理。此外,所提出的SAOL的计算量和参数数目与之前基于GAP-FC的输出层几乎相同。
此外,为了提高泛化能力,我们采用了两种基于CutMix[41]的新型位置自监督损失算法。我们注意到,与CutMix将ground truth image labels按比例混合到组合的输入端口的面积不同,本文提出的自我监督方法是根据混合输入对自标注的空间标签进行剪切和粘贴。所提出的损失使我们的空间logits和注意力图更加完整和准确。我们还探索了一种将传统的GAP-FC和SAOL连接起来并将SAOL logits蒸馏到GAP-FC的自蒸馏方法。该技术可以在不改变现有cnn结构的情况下,提高现有cnn的性能。
我们在CIFAR-10/100[22]和ImageNet[8]分类任务上使用各种最先进的cnn进行了大量的实验,观察到所提出的具有自监督和自蒸馏功能的SAOL能够持续改进性能,并生成更精确的目标目标定位结果。
我们的主要贡献如下:

  1. SAOL是在已有CNNs的基础上提出的,旨在通过空间注意机制对明确的特定位置类别响应提高图像分类性能。
  2. 在SAOL中,分别获得标准化的空间注意图,对详细的空间logits进行加权平均聚合,使得通过前向传播产生可解释的注意输出和目标定位结果成为可能。
  3. 在图像级有监督学习中,提出了新的基于位置的自监督损失和自蒸馏损失来提高SAOL的泛化能力。
  4. 在具有不同基准数据集和网络结构的图像分类任务和弱监督目标定位(WSOL)任务中,提出的具有自监督功能的SAOL能够持续提高性能。此外,消融实验表明,更精确的空间注意以及更复杂的位置特异性自我监督也有好处。

2.Related Work

类激活映射,类激活映射方法已被广泛使用:(1)用于可视化空间类激活以解释最终分类输出的决策;(2)引入基于它的辅助正则化来提高分类性能;(3)用于执行WSOL。具体地说,类激活映射(CAM)[47]可以通过将最后的卷积特征映射与最后FC层上与该类相关联的权重线性组合来获得每个类的激活映射。然而,CAM需要用卷积和GAP代替FC层来产生最终的分类输出。另一方面, (Guided Back-propagation)引导反向传播[34]、Deconvolution [43]和Grad-CAM[33]被提出用于在不需要改变结构的情况下,利用反向传播中的梯度来生成类别注意图。Grad-CAM++[1]修改Grad-CAM,使用高阶导数更精确地定位同一类的多个实例。这些方法仍然适用于图像级预测的GAP,这通常导致只在目标对象的有区别但未完成的部分突出显示。
注意机制,最近有几篇文章探讨了注意力机制在图像分类和弱监督目标定位(WSOL)中的应用[21,38,36,10]。
残差注意网络[36]通过堆叠多个软注意模块来修改ResNet[16],这些模块逐渐细化特征图。
Jetley等人。[21]提出了一个可训练的模块来生成注意权重,以集中于与当前分类任务相关的不同特征区域。
吴等。[38]介绍了一个卷积块注意模块,该模块依次应用信道和空间注意模块来细化中间特征映射。注意分支网络(ABN)[10]基于CAM(类激活映射)设计了一个单独的注意分支,生成注意权值,并将其用于对重要特征区域的聚焦。
这些注意方法在细化中间特征映射的同时,将注意力机制应用于输出层,直接改善空间输出logits。
Girdhar等人。[12] 介绍了一种基于空间注意的更紧密相关的方法,将空间逻辑集合到动作识别任务中。不过,他们只使用最后一个特征映射的简单线性映射。
CutMix和注意力引导的自我监督,作为一种高效而强大的数据扩充方法,CutMix[41]是最近发展起来的,它的性能明显优于以往的数据扩充方法,如Cutout[9]和Mixup[17]。但是,CutMix不能保证一个随机裁剪的补丁总是有一部分对应的目标对象,其比例与用于标签混合的相同。
最近的几项研究利用注意映射导出了自我监督损失。
例如,郭等。[15] 提出在简单空间变换下增强注意一致性,
Hu等。[19] 在数据扩充中应用了注意力的裁剪和下降。
Li等人。[25]提出了引导注意力推理网络,探索自我引导监督,以优化注意图。特别是,他们应用了一种带有图像裁剪的注意力挖掘技术来制作完整的地图,但是这些图都是基于Grad-CAM获得的。
Zhang等人。[45]引入了对抗性学习,利用CAM发现的互补对象区域来发现整个对象。
Wang等人。[37]提出了新的学习目标,以提高跨层注意力的可分性和注意力一致性。与这些注意力引导的自我监督学习方法不同,我们利用CutMix设计了一种更复杂的针对特定位置的自我监督方法。
剩余内容见上传的资源!
https://download.csdn.net/download/hb_learing/15041702

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值