论文笔记-Squeeze-and-Excitation Networks

论文介绍了Squeeze-and-Excitation (SE)网络,通过特征重标定策略,自适应地调整通道间相互依赖,提升特征表示质量。SE模块包括Squeeze、Excitation和Reweight步骤,能被嵌入到各种网络结构中,如Inception和ResNet,提高性能。实验表明SE网络在多个数据集和任务上达到最先进的性能。
摘要由CSDN通过智能技术生成

Hello, 今天是论文阅读计划的第六天。

今天介绍的这篇论文,是我在做我自己的论文时搜索到的。我的目的是想找到更有效的注意力机制,刚好这一篇论文提出的方法是即插即取的形式,所以就了解学习了下。

👉论文及代码:
Paper
Code
Code-PyTorch

在学习这篇论文的时候,看到了论文作者自己对于本文的解读,以及别人写的非常好的笔记,所以本文也会借鉴他们的部分内容。 参考链接

一、论文题目关键词

Squeeze: 挤、压
Excitation: 刺激、激发
这两个词有一点点对立的感觉,先挤压再刺激其进行扩张。很明显本文的技术将主要围绕着这两个词来进行了。

二、研究背景

近些年来,卷积神经网络在很多领域上都取得了巨大的突破。卷积核作为卷积神经网络的核心,它使网络能够通过融合每一层的局部感受野内的空间(spatial)和通道信息(channel-wise)来构建信息特征。卷积神经网络由一系列卷积层、非线性层和下采样层构成,这样它们能够从全局感受野上去捕获图像的特征来进行图像的描述。

计算机视觉研究的一个中心主题是寻找更强大的表示,捕捉图像中对给定任务最显著的属性,从而提高性能。

最近的研究表明,CNN产生的特征表示可以通过将学习机制集成到网络中来加强,这有助于捕捉特征之间的空间相关性。这样做的有, Inception 系列结构中嵌入了多尺度信息,聚合多种不同感受野上的特征来获得性能增益;在 Inside-Outside 网络中考虑了空间中的上下文信息;还有将 Attention 机制引入到空间维度上等等。

三、研究目标 & 内容

本文注意到了通道间的关系,由此设计了Squeeze-and- Excitation (SE) block结构。其目标是通过显式调整其变化特征的通道之间的相互依赖性,自适应地重新校准通道方向的特征响应,来提高由网络产生的特征表示的质量。

内容:没有引入一个新的空间维度来进行特征通道间的融合,而是采用了一种全新的「特征重标定」策略。具体来说,就是通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

四、方法

论文核心:
在这里插入图片描述

重新标定特征一共有三个步骤:

  • 首先是 Squeeze 操作,顺着空间维度来进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野,这一点在很多任务中都是非常有用的。
  • 其次是 Excitation 操作,它是一个类似于循环神经网络中门的机制。通过参数 w 来为每个特征通道生成权重,其中参数 w 被学习用来显式地建模特征通道间的相关性。
  • 最后是一个 Reweight 的操作,我们将 Excitation 的输出的权重看做是进过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定。

将本文提出的结构用在Inception和ResNet的网络结构中:
在这里插入图片描述
上左图是将 SE 模块嵌入到 Inception 结构的一个示例。方框旁边的维度信息代表该层的输出。

这里首先使用 global average pooling 作为 Squeeze 操作。紧接着两个 Fully Connected 层组成一个 Bottleneck 结构去建模通道间的相关性,并输出和输入特征同样数目的权重。

具体来说,首先将特征维度降低到输入的 1/16,然后经过 ReLu 激活后再通过一个 Fully Connected 层升回到原来的维度。这样做比直接用一个 Fully Connected 层的好处在于:1)具有更多的非线性,可以更好地拟合通道间复杂的相关性;2)极大地减少了参数量和计算量。然后通过一个 Sigmoid 的门获得 0~1 之间归一化的权重,最后通过一个 Scale 的操作来将归一化后的权重加权到每个通道的特征上。

除此之外,SE 模块还可以嵌入到含有 skip-connections 的模块中。上右图是将 SE 嵌入到 ResNet 模块中的一个例子,操作过程基本和 SE-Inception 一样,只不过是在 Addition 前对分支上 Residual 的特征进行了特征重标定。如果对 Addition 后主支上的特征进行重标定,由于在主干上存在 0~1 的 scale 操作,在网络较深 BP 优化时就会在靠近输入层容易出现梯度消散的情况,导致模型难以优化。

目前大多数的主流网络都是基于这两种类似的单元通过 repeat 方式叠加来构造的。由此可见,SE 模块可以嵌入到现在几乎所有的网络结构中。通过在原始网络结构的 building block 单元中嵌入 SE 模块,我们可以获得不同种类的 SENet。如 SE-BN-Inception、SE-ResNet、SE-ReNeXt、SE-Inception-ResNet-v2 等等。

五、结论

在本文中,我们提出了SE模块,这是一个架构单元,旨在通过使网络能够执行动态通道式特征重新校准来提高网络的表示能力。大量的实验表明了SENets的有效性,它在多个数据集和任务上实现了最先进的性能。此外,SE模块揭示了以前的体系结构无法充分建模通道式功能独立性的一些问题。我们希望这一观点对其他需要强辨别特征的任务有用。最后,由SE块产生的特征重要性值可以用于其他任务,例如用于模型压缩的网络修剪。

本文的这个方法是可以考虑加入到自己的实验中的,不过这篇论文是2019年的,2020年有了他的改进版SKNet以及ResNeSt,大家感兴趣的话也可以自己去看看。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值