Squeeze-and-Excitation Networks(SENet)
在图像中最早使用注意力机制的忘了就是SENet。SENet是Squeeze-and-Excitation Networks的简称,由Momenta公司所作并发于2017CVPR,论文中的SENet赢得了ImageNet最后一届(ImageNet 2017)的图像识别冠军,SENet主要是学习了channel之间的相关性,筛选出了针对通道的注意力,稍微增加了一点计算量,但是效果比较好。
论文地址:https://arxiv.org/pdf/1709.01507.pdf
官方代码地址:https://github.com/hujie-frank/SENet
Pytorch实现代码:https://github.com/moskomule/senet.pytorch
论文中的动机: 希望显式地建模特征通道之间的相互依赖关系,通过采用了一种全新的“特征重标定”策略–自适应地重新校准通道的特征响应 。具体来说, 通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。 该文提出的SE模块思想简单,易于实现,并且很容易可以加载到现有的网络模型框架中。
结构介绍
Sequeeze:顺着空间维度来进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野。具体操作就是对原特征图C * W * H 进行global average pooling,然后得到了一个 1 * 1 * C 大小的特征图,这个特征图具有全局感受野。
Excitation :输出的1x1xC特征图,再经过两个全连接神经网络,最后用一个类似于循环神经网络中门的机制。通过参数来为每个特征通道生成权重,其中参数被学习用来显式地建模特征通道间的相关性(论文中使用的是sigmoid)。
如上图所示,将特征为
Y
∗
W
∗
C
Y*W*C
Y∗W∗C的特整图,经过全局池化后变为
1
∗
1
∗
C
1*1*C
1∗1∗C的特征,然后将
1
∗
1
∗
C
1*1*C
1∗1∗C的特征缩减为原来的
r
r
r分之一倍,减少全连接层的计算量,网络经过ReLU激活函数后,再次经过第二个全连接层将特征从
1
∗
1
∗
C
/
r
1*1*C/r
1∗1∗C/r再扩充为
1
∗
1
∗
C
1*1*C
1∗1∗C,最终经过Sigmoid函数求出各层卷积的权重。
特征重标定:使用Excitation 得到的结果作为权重,然后通过乘法逐通道加权到U的C个通道上,完成在通道维度上对原始特征的重标定,并作为下一级的输入数据。这种结构的原理是想通过控制scale的大小,把重要的特征增强,不重要的特征减弱,从而让提取的特征指向性更强。
SENet 通俗的说就是:通过对卷积之后得到的feature map进行处理,得到一个和通道数一样的一维向量作为每个通道的评价分数,然后将改动之后的分数通过乘法逐通道加权到原来对应的通道上,最后得到输出结果,就相当于在原有的基础上只添加了一个模块而已。
代码
Pytorch代码实现上述该模块:
class SELayer(nn.Module):
def __init__(self, channel, reduction=16):
super(SELayer, self).__init__()
self.avg_pool = nn.AdaptiveAvgPool2d(1)
self.fc = nn.Sequential(
nn.Linear(channel, channel // reduction, bias=False),
nn.ReLU(inplace=True),
nn.Linear(channel // reduction, channel, bias=False),
nn.Sigmoid()
)
def forward(self, x):
b, c, _, _ = x.size()
y = self.avg_pool(x).view(b, c)
y = self.fc(y).view(b, c, 1, 1)
return x * y.expand_as(x)
代码比较简单,仅仅输入特征与通道数就可以进行直接插入操作,非常方便快捷。其中参数reduction
为缩减率。
参数分析
1. 缩减率
在SENet中引入的缩减率r是一个重要的超参数,也就是代码中reduction=16
。它允许改变模型中SE块的容量和计算成本。为了研究这种关系,基于SE-ResNet-50架构进行了一系列不同rr值的实验。表5中的比较表明,性能并没有随着容量的增加而单调上升。这可能是使SE块能够过度拟合训练集通道依赖性的结果。尤其是发现设置r=16在精度和复杂度之间取得了很好的平衡,因此将这个值用于所有的实验。
2. 压缩操作(池化选择)
在选择压缩操作的激活函数时,考察了使用全局平均池而不是全局最大池的重要性(因为这种方法很有效,所以没有考虑更复杂的替代方案)。结果见表11。最大池和平均池都是有效的,但平均池的性能稍好一些,这说明选择平均池作为挤压操作的依据。
3. 激活操作
论文评估了激励机制的非线性选择。考虑两个进一步的选择:ReLU和tanh,并实验用这些可选的非线性替换sigmoid。结果见表12。将sigmoid替换为tanh会略微降低性能,而使用ReLU则会显著降低性能,实际上会导致SE-ResNet-50的性能低于ResNet-50基线的性能。这表明,为了使SE块有效,谨慎地构造激励算子是重要的。
4. 不同时期
如上图所示,通过将SE块逐级集成到ResNet-50中,探讨了SE块在不同阶段的影响。具体来说,将SE块添加到中间阶段:阶段2、阶段3和阶段4,并将结果报告在表13中。观察到SE块在体系结构的每个阶段引入时会带来性能上的好处。此外,SE区块在不同阶段所带来的收益是互补的,也就是说,它们可以有效地结合在一起,进一步提升网络性能。
加粗样式
5. 一体化战略
最后进行消融研究,以评估SE块的位置影响时,将其集成到现有的架构。除了提出的SE设计,考虑了三种变体:(1)SE- pre块,其中SE块移动到剩余单元之前;(2) SE- post块,其中SE单元与恒等分支(ReLU后)求和后移动;(3)SE- identity块,其中SE单元与剩余单元平行放置在恒等连接上。这些变体如图5所示,每个变体的性能报告在表14中。观察到SE- pre、SE- identity和提出的SE块的性能相似,而使用SE- post块会导致性能下降。这个实验表明,SE单元产生的性能改进对于它们的位置是相当稳健的,前提是它们在分支聚合之前被应用。
结果展示
上图展示了SENet识别结果的,通过对比能够看出,识别准确度存在一定的提升。
前大多数的主流网络都是基于这两种类似的单元通过repeat方式叠加来构造的。由此可见,SE模块可以嵌入到现在几乎所有的网络结构中。通过在原始网络结构的building block 单元中嵌入SE模块,可以获得不同种类的SENet 。如SE-BN-Inception、SE-ResNet 、SE-ReNeXt、SE-Inception-ResNet-v2等等。