计算机视觉注意力网络(二)——SeNet [CVPR 2018]

Squeeze-and-Excitation Networks(SENet)

在图像中最早使用注意力机制的忘了就是SENet。SENet是Squeeze-and-Excitation Networks的简称,由Momenta公司所作并发于2017CVPR,论文中的SENet赢得了ImageNet最后一届(ImageNet 2017)的图像识别冠军,SENet主要是学习了channel之间的相关性,筛选出了针对通道的注意力,稍微增加了一点计算量,但是效果比较好。

论文地址:https://arxiv.org/pdf/1709.01507.pdf
官方代码地址:https://github.com/hujie-frank/SENet
Pytorch实现代码:https://github.com/moskomule/senet.pytorch


在这里插入图片描述
论文中的动机: 希望显式地建模特征通道之间的相互依赖关系,通过采用了一种全新的“特征重标定”策略–自适应地重新校准通道的特征响应 。具体来说, 通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。 该文提出的SE模块思想简单,易于实现,并且很容易可以加载到现有的网络模型框架中。

结构介绍

Sequeeze:顺着空间维度来进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野。具体操作就是对原特征图C * W * H 进行global average pooling,然后得到了一个 1 * 1 * C 大小的特征图,这个特征图具有全局感受野。

Excitation :输出的1x1xC特征图,再经过两个全连接神经网络,最后用一个类似于循环神经网络中门的机制。通过参数来为每个特征通道生成权重,其中参数被学习用来显式地建模特征通道间的相关性(论文中使用的是sigmoid)。

在这里插入图片描述
如上图所示,将特征为 Y ∗ W ∗ C Y*W*C YWC的特整图,经过全局池化后变为 1 ∗ 1 ∗ C 1*1*C 11C的特征,然后将 1 ∗ 1 ∗ C 1*1*C 11C的特征缩减为原来的 r r r分之一倍,减少全连接层的计算量,网络经过ReLU激活函数后,再次经过第二个全连接层将特征从 1 ∗ 1 ∗ C / r 1*1*C/r 11C/r再扩充为 1 ∗ 1 ∗ C 1*1*C 11C,最终经过Sigmoid函数求出各层卷积的权重。

特征重标定:使用Excitation 得到的结果作为权重,然后通过乘法逐通道加权到U的C个通道上,完成在通道维度上对原始特征的重标定,并作为下一级的输入数据。这种结构的原理是想通过控制scale的大小,把重要的特征增强,不重要的特征减弱,从而让提取的特征指向性更强。

SENet 通俗的说就是:通过对卷积之后得到的feature map进行处理,得到一个和通道数一样的一维向量作为每个通道的评价分数,然后将改动之后的分数通过乘法逐通道加权到原来对应的通道上,最后得到输出结果,就相当于在原有的基础上只添加了一个模块而已。

代码

Pytorch代码实现上述该模块:

class SELayer(nn.Module):
    def __init__(self, channel, reduction=16):
        super(SELayer, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
            nn.Linear(channel, channel // reduction, bias=False),
            nn.ReLU(inplace=True),
            nn.Linear(channel // reduction, channel, bias=False),
            nn.Sigmoid()
        )

    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.avg_pool(x).view(b, c)
        y = self.fc(y).view(b, c, 1, 1)
        return x * y.expand_as(x)

代码比较简单,仅仅输入特征与通道数就可以进行直接插入操作,非常方便快捷。其中参数reduction为缩减率。

参数分析

1. 缩减率

在这里插入图片描述

在SENet中引入的缩减率r是一个重要的超参数,也就是代码中reduction=16。它允许改变模型中SE块的容量和计算成本。为了研究这种关系,基于SE-ResNet-50架构进行了一系列不同rr值的实验。表5中的比较表明,性能并没有随着容量的增加而单调上升。这可能是使SE块能够过度拟合训练集通道依赖性的结果。尤其是发现设置r=16在精度和复杂度之间取得了很好的平衡,因此将这个值用于所有的实验。

2. 压缩操作(池化选择)

在这里插入图片描述
在选择压缩操作的激活函数时,考察了使用全局平均池而不是全局最大池的重要性(因为这种方法很有效,所以没有考虑更复杂的替代方案)。结果见表11。最大池和平均池都是有效的,但平均池的性能稍好一些,这说明选择平均池作为挤压操作的依据。

3. 激活操作

在这里插入图片描述
论文评估了激励机制的非线性选择。考虑两个进一步的选择:ReLU和tanh,并实验用这些可选的非线性替换sigmoid。结果见表12。将sigmoid替换为tanh会略微降低性能,而使用ReLU则会显著降低性能,实际上会导致SE-ResNet-50的性能低于ResNet-50基线的性能。这表明,为了使SE块有效,谨慎地构造激励算子是重要的。

4. 不同时期

在这里插入图片描述
如上图所示,通过将SE块逐级集成到ResNet-50中,探讨了SE块在不同阶段的影响。具体来说,将SE块添加到中间阶段:阶段2、阶段3和阶段4,并将结果报告在表13中。观察到SE块在体系结构的每个阶段引入时会带来性能上的好处。此外,SE区块在不同阶段所带来的收益是互补的,也就是说,它们可以有效地结合在一起,进一步提升网络性能。
加粗样式

5. 一体化战略

在这里插入图片描述

最后进行消融研究,以评估SE块的位置影响时,将其集成到现有的架构。除了提出的SE设计,考虑了三种变体:(1)SE- pre块,其中SE块移动到剩余单元之前;(2) SE- post块,其中SE单元与恒等分支(ReLU后)求和后移动;(3)SE- identity块,其中SE单元与剩余单元平行放置在恒等连接上。这些变体如图5所示,每个变体的性能报告在表14中。观察到SE- pre、SE- identity和提出的SE块的性能相似,而使用SE- post块会导致性能下降。这个实验表明,SE单元产生的性能改进对于它们的位置是相当稳健的,前提是它们在分支聚合之前被应用。
在这里插入图片描述

结果展示

在这里插入图片描述
上图展示了SENet识别结果的,通过对比能够看出,识别准确度存在一定的提升。

前大多数的主流网络都是基于这两种类似的单元通过repeat方式叠加来构造的。由此可见,SE模块可以嵌入到现在几乎所有的网络结构中。通过在原始网络结构的building block 单元中嵌入SE模块,可以获得不同种类的SENet 。如SE-BN-Inception、SE-ResNet 、SE-ReNeXt、SE-Inception-ResNet-v2等等。

SENet(Squeeze-and-Excitation Network)是一种用于卷积神经网络(CNN)中的注意力机制,它通过学习通道间的关系来增强特征表示的重要性。在SENet中,网络会自动学习特征通道之间的相关性,并针对每个通道进行加权,以提高整体特征表示的性能。 在PyTorch中,可以使用以下代码实现SENet注意力机制: ```python import torch.nn as nn class SELayer(nn.Module): def __init__(self, channel, reduction=16): super(SELayer, self).__init__() self.avg_pool = nn.AdaptiveAvgPool2d(1) self.fc = nn.Sequential( nn.Linear(channel, channel // reduction, bias=False), nn.ReLU(inplace=True), nn.Linear(channel // reduction, channel, bias=False), nn.Sigmoid() ) def forward(self, x): b, c, _, _ = x.size() y = self.avg_pool(x).view(b, c) y = self.fc(y).view(b, c, 1, 1) return x * y.expand_as(x) ``` 在上面的代码中,我们定义了一个SELayer类,它包含两个部分:全局平均池化和全连接层。首先,我们使用全局平均池化对每个通道进行平均池化,然后将结果输入到全连接层中。全连接层通过两个线性层和ReLU激活函数来学习特征通道之间的关系,最后使用Sigmoid函数将输出值压缩到0到1之间。最后,我们将SELayer应用于输入特征图上,以增强特征表示的重要性。 SENet是一种非常有效的注意力机制,可以提高卷积神经网络的性能。在实际应用中,可以将SELayer添加到现有的CNN架构中,以提高模型的性能。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值