题目:Squeeze-and-Excitation Networks
发布期刊:CVPR(2019)
作者:Hu, Jie;Shen, Li;Albanie, Samuel;Sun, Gang;Wu, Enhua
Hu Jie, Shen Li, Albanie Samuel, et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.(名在前,姓在后)
[1]Jie Hu, Li Shen, Samuel Albanie, et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.(E-Study GB/T 7714-2015格式引文)
DOI:https://arxiv.org/abs/1709.01507
SENet解决的核心问题:通道间相互依赖性的显示建模
论文指出了现有卷积神经网络(CNN)在特征表示方面存在的问题,尤其是缺乏对通道间相互依赖性的显式建模。引入Squeeze-and-Excitation(SE)块
SE块通过显式地建模通道间的相互依赖性,自适应地重新校准通道特征响应。 SE块包括两个主要操作——Squeeze和Excitation。Squeeze操作通过全局平均池化聚合空间维度的信息,生成通道描述符;Excitation操作则利用这个描述符产生每通道的调制权重,进而对特征图进行重校准。
摘要
卷积神经网络(CNNs)的核心构建块是卷积算子,它通过网络在每一层的局部感受野内融合空间和通道信息来构建有信息量的特征。大量先前的研究调查了这种关系的空域组成部分,寻求通过增强CNN在其特征层次结构中的空间编码质量来加强其表征能力。(⭐之前只关注空间关系,以其增加卷积提取特征的能力,这篇文章关注通道之间的关系,以其增强特征提取能力)在这项工作中,我们转而关注通道关系,并提出了一种新的架构单元,我们称之为“挤压-激励”(SE)块,它通过显式建模通道间的相互依赖关系来自适应地重新校准通道特征响应。我们展示了这些块可以堆叠在一起形成SENet架构,这些架构在不同数据集上具有极其有效的泛化能力。我们进一步证明,SE块在略微增加计算成本的情况下,为现有的最先进CNNs带来了显著的性能提升。挤压-激励网络构成了我们2017年ILSVRC分类提交的基础,该提交获得了第一名,并将前5名错误率降低到了2.251%,比2016年的获胜者相对提高了约25%。
Introduction
卷积神经网络(CNNs)已被证明是解决广泛视觉任务的有用模型[1]、[2]、[3]、[4]。在网络的每个卷积层中,一系列滤波器表达了输入通道沿线邻域空间连接模式——在局部感受野内融合空间和通道信息。通过将一系列卷积层与非线性激活函数和下采样操作符交错排列,CNNs能够产生捕捉层次模式并实现全局理论感受野的图像表示。计算机视觉研究的一个中心主题是寻找更强大的表示,这些表示只捕捉对于给定任务最显著的图像属性,从而实现性能提升。
作为视觉任务广泛使用的模型家族,新神经网络架构设计的发展现在代表了这一搜索的关键前沿。最近的研究表明,通过将学习机制整合到网络中,可以帮助捕捉特征之间的空间相关性,从而加强CNNs产生的表示。一种这样的方法,由Inception系列架构[5]、[6]推广,将多尺度处理纳入网络模块以实现改进的性能。进一步的工作寻求更好地建模空间依赖性[7]、[8]并将空间注意力纳入网络结构[9]。
在这篇论文中,我们研究了网络设计的另一个方面——通道之间的关系。我们引入了一种新的架构单元,我们称之为挤压-激励(SE)块,其目标是通过显式建模卷积特征通道之间的相互依赖关系,提高网络产生的表示的质量。为此,我们提出了一种机制,允许网络执行特征重新校准,通过网络可以学习使用全局信息来选择性地强调有信息量的特征,并抑制不太有用的特征。
SE构建块的结构如图1所示。对于任何给定的将输入X映射到特征图U的转换 F t r \mathbf{F}_{tr} Ftr(💡这里指卷积),其中 U ∈ R H × W × C U\in\mathbb{R}^{H\times W\times C} U∈RH×W×C,例如卷积,我们可以构建一个相应的SE块来执行特征重新校准。特征U首先通过一个挤压操作,该操作通过聚合其空间维度( H × W H×W H×W)上的特征图来产生一个通道描述符。这个描述符的函数是产生通道特征响应的全局分布嵌入,允许网络的所有层使用来自网络全局感受野的信息。聚合后是一个激励操作,它采取一个简单的自门控机制的形式,将嵌入作为输入,并产生一组每个通道的调制权重。这些权重应用于特征图 U U U,以生成SE块的输出,该输出可以直接输入到网络的后续层。
可以通过简单地堆叠一系列SE块来构建一个SE网络(SENet)。此外,这些⭐SE块也可以作为网络架构中不同深度的原始块的即插即用替代品(第6.4节)。虽然构建块的模板是通用的,但它在网络不同深度中扮演的角色不同。在早期层中,它以类别不可知的方式激发信息特征,加强共享的低级表示。在后期层中,SE块变得越来越专业化,并且以高度类别特定的方式响应不同的输入(第7.2节)。因此,SE块执行的特征重新校准的好处可以通过网络累积。
设计和开发新的CNN架构是一项困难的工程任务,通常需要选择许多新的超参数和层配置。相比之下,SE块的结构简单,可以直接用在现有的最先进架构中,通过用它们的SE对应物替换组件,可以有效增强性能。SE块在计算上也是轻量级的,只增加了模型复杂性和计算负担的轻微增加。
为了证明这些主张,我们开发了几个SENet,并在ImageNet数据集[10]上进行了广泛的评估。我们还展示了超出ImageNet的结果,表明我们方法的好处并不局限于特定的数据集或任务。通过使用SENets,我们在2017年ILSVRC分类竞赛中排名第一。我们最好的模型集成在测试集上实现了2.251%的前5名错误率。与前一年获胜的条目(前5名错误率为2.991%)相比,这大约代表了25%的相对改进。
相关工作
更深层次的架构。VGGNets[11]和Inception模型[5]表明,增加网络的深度可以显著提高它能够学习的表示的质量。通过调节每一层输入的分布,批量归一化(BN)[6]为深度网络的学习过程增加了稳定性,并产生了更平滑的优化表面[12]。在这些工作的基础上,ResNets展示了通过使用基于恒等映射的跳跃连接,可以学习到更深层次、更强大的网络[13]、[14]。Highway networks [15]引入了一个门控机制来调节沿捷径连接的信息流。在这些工作之后,对网络层之间连接的进一步重新制定[16]、[17],显示出对深度网络的学习和表示属性有希望的改进。
另一条密切相关的研究线索专注于改进网络中包含的计算元素的功能形式的方法。分组卷积已被证明是一种提高学习变换基数的流行方法[18]、[19]。通过多分支卷积[5]、[6]、[20]、[21],可以实现更灵活的操作符组合,这可以被视为分组操作符的自然扩展。在先前的研究中,跨通道相关性通常被映射为新的特征组合,要么独立于空间结构[22]、[23],要么通过使用标准卷积滤波器[24]与1×1卷积联合进行。这些研究大多集中在减少模型和计算复杂性的目标上,反映了一个假设,即通道关系可以被制定为具有局部感受野的实例不可知函数的组合。相比之下,我们声称为单元提供一种机制,使用全局信息明确建模通道之间的动态、非线性依赖关系,可以简化学习过程,并显著增强网络的表示能力。
算法架构搜索。除了上述描述的工作之外,还有丰富的研究历史,旨在放弃手动架构设计,而是寻求自动学习网络的结构。这个领域的早期工作大多是在神经进化社区进行的,该社区建立了使用进化方法搜索网络拓扑的方法[25]、[26]。尽管通常计算要求很高,但进化搜索已经取得了显著的成功,包括为序列模型找到良好的记忆单元[27]、[28]和为大规模图像分类学习复杂的架构[29]、[30]、[31]。为了减少这些方法的计算负担,基于拉马克遗传[32]和可微架构搜索[33]的高效替代方法已被提出。
通过**将架构搜索表述为超参数优化,随机搜索[34]以及其他更复杂的基于模型的优化技术[35]、[36]也可以用来解决这个问题。将拓扑选择作为穿过可能设计织物的路径[37]和直接架构预测[38]、[39]被提出作为额外可行的架构搜索工具。在使用强化学习技术[40]、[41]、[42]、[43]、[44]方面,已经取得了特别强大的结果。⭐SE块可以用作这些搜索算法的原子构建块,并且在并行工作中[45]被证明在这方面非常有效**。
注意力和门控机制。注意力可以被解释为一种偏向于将可用的计算资源分配给信号中最有信息量的组成部分的方法[46]、[47]、[48]、[49]、[50]、[51]。注意力机制已经在许多任务中证明了它们的效用,包括序列学习[52]、[53]、图像中的定位和理解[9]、[54]、图像字幕[55]、[56]和读唇[57]。在这些应用中,它可以作为一个操作符被纳入,跟随代表更高层次抽象的一个或多个层,以适应不同模态之间的变化。一些工作提供了关于空间和通道注意力结合使用的有趣研究[58]、[59]。Wang等人[58]引入了一种基于沙漏模块[8]的强大干线和掩码注意力机制,该机制被插入到深度残差网络的中间阶段。相比之下,我们提出的SE块包括一个轻量级门控机制,它专注于通过以计算高效的方式建模通道间关系,增强网络的表示能力。
SE Block
挤压-激励(Squeeze-and-Excitation)块是一个计算单元,它可以建立在将输入 X ∈ R H ′ × W ′ × C ′ \mathbf{X}\in\mathbb{R}^{H^{\prime}\times W^{\prime}\times C^{\prime}} X∈RH′×W′×C′映射到特征图 U ~ ∈ R H × W × C \tilde{\mathbf{U}}\in\mathbb{R}^{H\times W\times C} U~∈RH×W×C的转换 F t r : X → U \mathbf{F}_{tr}:\mathbf{X}\to\mathbf{U} Ftr:X→U之上。在后续的表示中,我们假设 F t r \mathbf{F}_{tr} Ftr是一个卷积算子,并使用 V = [ v 1 , v 2 , … , v C ] \mathbf{V}=[\mathbf{v}_1,\mathbf{v}_2,\ldots,\mathbf{v}_C] V=[v1,v2,…,vC]来表示学习到的一组滤波器核,其中 v C \mathbf{v}_C vC指的是第 c c c个滤波器的参数。然后我们可以将输出写为 U = [ u 1 , u 2 , … , u C