【翻译笔记】Squeeze-and-Excitation Networks

Kaleidoscope-

已于 2024-09-19 08:44:29 修改

阅读量4k

点赞数 2

分类专栏：人工智能算法-python 文章标签： 1024程序员节

于 2021-04-27 00:12:31 首次发布

本文链接：https://blog.csdn.net/qq_45929156/article/details/116106978

版权

本文提出了Squeeze-and-Excitation（SE）块，一种新颖的网络结构单元，通过自适应地重新校准通道特征响应来增强卷积神经网络的表示能力。SE块通过全局信息嵌入和自适应重新校准，利用通道间的相互依赖性，从而提高模型的性能。SE块在计算上轻量级，可在不同深度的网络中轻松集成，如ResNet和Inception模型。在ImageNet数据集上进行的实验表明，SE块可以显著提高现有CNN的性能，而计算复杂性增加轻微。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Squeeze-and-Excitation Networks

翻译前言：由于英语阅读水平不佳以及术语掌握不完全，部分描述性语言为机翻然后修改得到，同时部分地方加了博主自己的注释~~（注释会删除线表明）~~，翻译的不好见谅，本文仅供参考。

摘要—卷积神经网络（CNN）的核心模块是卷积块，它使网络能够融合每层局部感受野内的空间和通道信息构建信息特征。大量的先前研究已经研究了这种关系的空间结构，试图通过在整个特征层次上提高空间编码的质量来增强CNN的表示能力。在这项工作中，我们将重点放在通道关系上，并提出一个新颖的体系结构单元，我们称之为“挤压和激励”（SE）块，该模块通过显式建模通道之间的相互依赖性来自适应地重新校准通道方式的特征响应。我们展示了模块堆叠在一起以形成的SENet架构，该架构可以非常有效地概括不同数据集。我们进一步证明，SE块用略微的额外计算成本为现有的最新CNN带来了性能上的显着改善。

挤压和激励网络构成了我们ILSVRC 2017类别提交的基础，该类别获得了第一名，并将前5名的错误减少到2.251％，相对于2016年的获胜作品有了约25％的相对改善。有关模型和代码，请访问GitHub - hujie-frank/SENet: Squeeze-and-Excitation Networks。

索引词—压缩和激励，图像表示，注意力，卷积神经网络。

1简介

进化神经网络（CNN）已被证明是解决各种视觉任务的有用模型[1]，[2]，[3]，[4]。在网络的每个卷积层，一组过滤器沿输入通道表达邻域空间连通性模式-在本地接收域内将空间和通道信息融合在一起。通过将一系列卷积层与非线性激活函数和下采样运算符进行交织，CNN可以生成捕获分层模式并获得全局理论接收场的图像表示。计算机视觉研究的中心主题是寻找更强大的表示形式，这些表示形式仅捕获对给定任务最重要的图像属性，从而提高性能。

作为用于视觉任务的广泛使用的模型系列，新的神经网络体系结构设计的开发现在代表了此搜索的关键领域。最近的研究表明，可以通过将学习机制集成到网络中来增强CNN产生的表示，以帮助捕获要素之间的空间相关性。一种这样的方法，由Inception系列体系结构[5]，[6]推广，将多尺度过程合并到网络模块中以实现更高的性能。进一步的工作试图更好地对空间依赖性进行建模[7]，[8]，并将空间注意力纳入网络的结构[9]。

在本文中，我们研究了网络设计的另一个通道之间的关系。我们引入了一个新的体系结构单元，我们称之为“挤压和激发”（SE）块，其目的是通过显式修改其卷积特征的通道之间的相互依赖性来提高网络产生的表示的质量。为此，我们提出了一种机制，该机制允许网络执行特征重新校准，通过该机制，它可以学习使用全局信息来选择性地强调信息特征并抑制不太有用的特征。

SE构造块的结构如图1所示。对于任何给定的变换Ftr，将输入X映射到特征图U，其中U∈R（H×W×C），例如一个卷积，我们可以构造一个相应的SE块来执行特征重新校准。首先将特征U传递给挤压操作，该操作通过在其空间维度（H×W）上聚合特征图来生成通道描述符。该描述符的功能是产生对信道方式特征响应的全局分布的嵌入，从而允许来自网络全局接收域的信息被其所有层使用。聚合之后是激励操作，该激励操作采用简单的自选通机制的形式，该机制将嵌入作为输入并产生每通道调制权重的集合。将这些权重应用于特征图U，以生成SE块的输出，可以将其直接馈送到网络的后续层中。

这个结构可以通过简单地堆叠SE块的集合来构建SE网络（SENet）。而且，这些SE块还可以在网络体系结构的一定深度范围内用作原始块的替代品（第6.4节）。【一个SE block，Ftr是一个转换操作，并且 $F_{tr}:X\rightarrow U,X\in \mathbb{R^{{W{}\times 'H{}\times 'C{}'}}}, U\in \mathbb{R^{{W{}\times 'H{}\times 'C{}'}}}$ （定义输入输出），具体U，X的值见下文】

（见pdf）

虽然构建模块的模板是通用的，但它在不同深度执行的角色在整个网络中都不同。在较早的层中，它以类不可知的方式激发信息功能，从而增强了共享的低级表示。在随后的层中，SE块变得越来越专业化，并以高度特定于类的方式响应不同的输入（第7.2节）。结果，可以通过网络累积SE块执行的功能重新校准的好处。

新的CNN架构的设计和开发是一项艰巨的工程任务，通常需要选择许多新的超参数和层配置。相比之下，SE块的结构很简单，可以通过用SE对应部件替换组件来直接在现有的最新体系结构中使用，从而可以有效地提高性能。 SE块在计算上也很轻巧，并且在模型复杂性和计算负担上仅增加了一点点。

为了提供这些主张的证据，我们开发了多个SENet，并对ImageNet数据集进行了广泛的评估[10]。我们还提供了ImageNet以外的结果，这些结果表明我们的方法的好处并不局限于特定的数据集或任务。通过使用SENets，我们在ILSVRC 2017分类竞赛中排名第一。我们最好的模型集合在测试set1上达到2.251％的top-5误差。与上一年的获奖者相比，这意味着大约25％的相对改善（前5名错误为2.991％）。

2相关工作

更深层次的体系结构。VGGNets [11]和Inception模型[5]表明，增加网络深度可以显着提高其能够学习的表示质量。通过调节输入到每一层的分布，批量归一化（BN）[6]为深度网络中的学习过程增加了稳定性，并产生了更平滑的优化表面[12]。在这些工作的基础上，ResNets证明了通过使用基于身份的跳过连接来学习更深入，更强大的网络是可能的[13]，[14]。

Highway networks [15]引入了一种门控机制来调节沿捷径连接的信息流。

在完成这些工作之后，网络层之间的连接有了进一步的重新设计[16]，[17]，这表明对深层网络的学习和表示特性有希望的改进。

替代的但密切相关的研究领域集中在改善网络中包含的计算元素的功能形式的方法上。事实证明，分组卷积是增加学习变换基数的流行方法[18]，[19]。可以使用多分支卷积[5]，[6]，[20]，[21]来实现运算符更灵活的组合，这可以看作是分组运算符的自然扩展。在先前的工作中，跨通道相关性通常被映射为特征的新组合，从而独立于空间结构[22]，[23]或通过使用具有1×1卷积的标准卷积滤波器[24]进行联合。这项研究大部分集中在降低模型和计算复杂度的目标上，反映了一个假设，即可以将通道关系表示为具有局部接受域的实例不可知功能的组合。相比之下，我们声称，为该单元提供一种机制，以使用全局信息显式建模通道之间的动态，非线性依存关系，可以简化学习过程，并显着增强网络的表示能力。

算法架构搜索。 除上述工作外，还有丰富的研究历史，旨在放弃手动体系结构设计，而是寻求自动学习网络的结构。这个领域的许多早期工作是在神经进化社区中进行的，该社区建立了使用进化方法搜索网络拓扑的方法[25]，[26]。进化搜索虽然经常需要计算，但取得了显著成功，其中包括为序列模型[27]，[28]找到良好的存储单元，以及为大规模图像分类学习复杂的体系结构[29]，[30]，[31] 。为了减轻这些方法的计算负担，基于拉马克继承[32]和可微体系结构搜索[33]提出了该方法的有效替代方案。

通过将架构搜索表述为超参数优化，可以使用随机搜索[34]和其他基于模型的更复杂的优化技术[35]，[36]解决该问题。拓扑选择作为通过可能的设计的架构的路径[37]和直接架构预测[38] [39]已被提议为其他可行的架构搜索工具。通过强化学习[40]，[41]，[42]，[43]，[44]的技术已经获得了特别强劲的结果。 SE块可以用作这些搜索算法的原子构建块，并在并行工作中被证明在此功能上非常有效[45]。

注意和门控机制。可以将注意力理解为将可用的计算资源的分配偏向信号的最有用的组件的一种方法。注意机制已经证明了它们在许多任务中的效用，包括序列学习，图像中的定位和理解，图像标题，和唇读。在这些应用中，它可以作为操作员并入一个或多个层，这些层代表用于模态之间适应的高层抽象。一些工作对空间和渠道注意力的组合使用提供了有趣的研究[58]，[59]。 Wang等[58]引入了一个强大的基于沙漏（hourglass）模块[8]的躯干和面具注意机制，该机制插入深层残差网络的中间阶段之间。相比之下，我们提出的SE块包括一个轻量级选通机制，该机制着重于通过以计算有效的方式对各个通道之间的关系进行建模来增强网络的表示能力。

3挤压和激励块

挤压和激励块是可以基于将输入X∈R（H‘×W’×C）映射到特征图U∈ $R^{H\times W}$ 的变换Ftr上构建的计算单元。在下面的符号中，我们将Ftr用作卷积，并使用V = [v1，v2，… ，vc]表示第c个卷积核，其中xc表示第c个输入。然后，我们可以将输出写为U = [u1，u2，… ，uc]~~（U：tensor uc：大小为H*W的feature map）~~，其中

$u_{c}=v_{c}*X=\sum_{s=1}^{C{}'}v_{C}^{S}*x^{8}$ (1)

此处，∗表示卷积， $v_{c}= [ v^{_{c}^{1}} ,v^{_{c}^{2}},....,v^{_{c}^{C{}'}}]$ ，X = [x 1，x 2，…，x C’]和uc∈ $R^{H\times W}$ 。 $V^{_{C}^{S}}$ 是一个二维卷积核，代表作用在X对应通道上Vc的单个通道。为简化表示法，省略了bais。由于输出是通过所有通道的求和产生的，因此通道相关性隐式嵌入vc中，但与滤波器捕获的局部空间相关性纠缠在一起。通过卷积建模的通道关系固有地是隐式的和局部的（最顶层的通道除外）。我们期望通过显式改变通道的相互依赖性来增强卷积特征的学习，以便网络能够提高其对信息特征的敏感性，这些特征可以被后续的转换所利用。因此，我们希望向其提供全局信息的访问权，并在压缩和激励分两步将其反馈到下一个转换之前，以两个步骤重新校准滤波器的响应。图1示出了说明SE块的结构的图。

3.1压缩：全局信息嵌入

为了解决利用通道依赖性的问题，我们首先在输出功能中考虑到每个通道的信号。每个学习到的滤波器都使用局部接收场进行操作，因此，转换输出U的每个单元都无法利用该区域之外的上下文信息。

为了减轻这个问题，我们建议将全局空间信息压缩到一个通道中。使用全局平均池化生成按通道统计信息来实现的。形式上，统计量z∈Rc是通过将U缩小其空间尺寸H×W来生成的，因此z的第c个元素可通过以下公式计算： $z_{c}=F_{sq}(u_{c})= 1/(H\times W)\sum_{i=1}^{H}\sum_{j=1}^{W}u_{c}(i,j)$ （2） ~~（Squeeze操作得到z）~~