第七周学习总结

一、【BMVC2018】BAM: Bottleneck Attention Module

        论文摘要:在这项工作中,我们把重心放在了Attention对于一般深度神经网络的影响上,我们提出了一个简单但是有效的Attention 模型—BAM,它可以结合到任何前向传播卷积神经网络中,我们的模型通过两个分离的路径 channel和spatial, 得到一个Attention Map。

1、channel attention branch

2、Spatial attention branch

        这个空间分支产生了空间Attention去增强或者抑制特征在不同的空间位置,众所周知,利用上下文信息是去知道应该关注哪些位置的关键点。在这里我们为了高效性运用空洞卷积去增大感受野。
        我们观察到,与标准卷积相比,空洞卷积有助于构造更有效的spatial map. 

 

二、【CVPR2019】Dual Attention Network for Scene Segmentation

       在本文中,通过基于自我约束机制捕获丰富的上下文依赖关系来解决场景分割任务。
       与之前通过多尺度特征融合捕获上下文的工作不同,提出了一种双重注意网络(DANet)来自适应地集成局部特征及其全局依赖性。

       具体来说,在传统的扩张FCN之上附加两种类型的注意力模块,它们分别对空间和通道维度中的语义相互依赖性进行建模。

  • 位置力关注模块通过所有位置处的特征的加权和来选择性地聚合每个位置处的特征。无论距离如何,相似的特征都将彼此相关。
  • 同时,通道注意力模块通过整合所有通道映射中的相关特征来选择性地强调相互依赖的信道映射。

       将两个注意模块的输出相加以进一步改进特征表示,这有助于更精确的分割结果。

 1、Position Attention Module

        输入A是C*H*W,经过卷积之后生成B、C、D(C*H*W),然后将B/C调整为C*N(N=H*W),将B转置(B=N*C)然后与C做matrix multiplication,然后应用softmax计算空间注意力映射S(N*N),matrix multiplication公式如下:

         将D也调整为C*N,与S的转置N*N做matrix multiplication,并将result调整为C*H*W,最后与A做element-wise sum操作,得到输出E(C*H*W),element-wise sum公式如下:

 2、Channel Attention Module

        与position attention module类似,不同的是通道注意映射X是C*C大小的。

        在两个注意力模块输出之后采用element-wise sum进行融合,然后卷积得到最终预测图。

三、【CVPR2020】ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

        论文摘要:通道注意力有效提升了CNN的性能,但是随着一系列复杂注意力模块的提出不可避免增加了计算成本。为了平衡性能和复杂度,本文设计了一种超轻量级的注意力模块-ECA Module(Efficient Channel Attention)来提升大型CNN的性能。ECA Module只包含k个参数(k<=9)。
        在SE-Net中我们发现避免降维、有适当的通道交互是十分重要的,因此本文使用了一种局部的跨通道交互策略,通过一维卷积就可快速实现。此外,本文还设计了一种自适应的一维卷积函数加速训练收敛。

         可以看到,SE的注意力是经过两层FC计算得到,而ECA是通过k=5个临近通道计算得到的。

        ECA-Net是基于SE-Net的扩展,其认为SE block的两个FC层之间的维度缩减是不利于channel attention的权重学习的,这个权重学习的过程应该直接一一对应。作者做了一系列实验来证明在attention block中保持channel数不变的重要性。

四、【CVPR2020】Improving Convolutional Networks with Self-Calibrated Convolutions

        论文摘要:CNN的最新进展主要致力于设计更复杂的体系结构,以增强其表示学习能力。在本文中,我们考虑在不调整模型架构的情况下改进CNN的基本卷积特征转换过程。为此,我们提出了一种新颖的自校准卷积,该卷积通过内部通信显着扩展了每个卷积层的视场,从而丰富了输出功能。特别是,与使用小卷积核(例如3 x 3)融合空间和通道方向信息的标准卷积不同,我们的自校准卷积通过新颖的自我自适应地围绕每个空间位置建立了长距离空间和通道间依赖性的校准操作。因此,它可以通过显式合并更丰富的信息来帮助CNN生成更多辨识性表示。我们的自校准卷积设计简单且通用,可以轻松应用于增强标准卷积层,而不会引入额外的参数和复杂性。广泛的实验表明,将我们的自校准卷积应用于不同的主干网络时,可以在各种视觉任务中显着改善基线模型,包括图像识别,目标检测,实例分割和关键点检测,而无需更改网络体系结构 。我们希望这项工作可以为将来的研究提供一种设计新颖的卷积特征变换以改善卷积网络的有前途的方法。
        该方法具有两个优点。 首先,它使每个空间位置都能自适应地编码远距离区域的信息上下文,从而打破了在小区域(例如3x3)内进行卷积的传统。 这使我们的自校准卷积产生的特征表示更具辨识性。 在图1中,我们将ResNet生成的具有不同类型卷积的特征激活图可视化。 可以看出,具有自校准卷积的ResNet可以更准确和整体地定位目标对象。 其次,提出的自校准卷积是通用的,可以轻松应用于标准卷积层,而无需引入任何参数和复杂性开销或更改超参数。

  • 常规卷积:

        输入C X H X W ,在输出通道也为C的卷积中,卷积核K的维度为C X C X H X W

        缺点:这种卷积滤波器学习模式都具有相似性。 此外,卷积特征变换中每个空间位置的视野主要由预定义的内核大小控制,由此类卷积层的堆叠组成的网络也缺少大的感受野,无法捕获足够的高级语义。 以上两个缺点都可能导致特征图的辨识度较低。

  • 自校准卷积

 

        自校准卷积与组卷积类似,不同点是过滤器的每个部分都没有得到同等对待,而是负责特定的功能。
        具体如上图所示:

1).输入X为C X H X W大小,拆分为两个C/2 X H X W大小的X1,X2;

2).卷积核K的维度为C X C X H X W,将K分为4个部分,分别为K1,K2,K3,K4,其维度均为C/2 X C/2 X H X W;

        为了有效地并有效地收集每个空间位置的丰富的上下文信息,论文提出在两个不同的尺度空间中进行卷积特征转换:原始尺度空间中的特征图(输入共享相同的分辨率)和下采样后的较小的潜在空间(自校准) 。 利用下采样后特征具有较大的视场,因此在较小的潜在空间中进行变换后的嵌入将用作参考,以指导原始特征空间中的特征变换过程

3)自校准尺度空间:

        对特征X1采用平均池化降采样r倍(论文r=4),K2卷积层,再进行上采样(双线性插值),经过Sigmoid激活函数对K3卷积提取后的特征进行校准得到输出特征Y1;

4)原尺度特征空间:对特征X2经过K1卷积提取得到特征Y2;

5)对两个尺度空间输出特征Y1,Y2进行拼接操作,得到最终输出特征Y。

  • 自校准卷积优点

1)与传统的卷积相比,通过采用方程式所示的校准操作。 如图4所示,允许每个空间位置不仅将其周围的信息环境自适应地视为来自潜在空间的嵌入,以作为来自原始比例空间的响应中的标量,还可以对通道间依赖性进行建模。 因此,可以有效地扩大具有自校准的卷积层的视场。 如图3所示,具有自校准功能的卷积层编码更大但更准确的辨识性区域。


2)自校准操作不收集全局上下文,而仅考虑每个空间位置周围的上下文,从而在某种程度上避免了来自无关区域的某些污染信息。 从图6的右两栏中可以看出,在可视化最终分数层时,具有自校准功能的卷积可以准确地定位目标物体。

 

3)自校准操作对多尺度信息进行编码,这是与目标检测相关的任务所迫切需要的。 

 五、【ARXIV2105】Pyramid Split Attention

         目前存在的注意力机制存在两个问题:1)如何有效的捕获和利用不同比例尺度的maps的空间信息,丰富maps的空间;2)通道和空间注意力只能捕获局部信息,而不能建立长期的通道依赖关系。

        文章提出了一种新的轻量级、高效的注意力分配方法——金字塔分裂注意模块(PSA)。并且,将ResNet的block中的3×3的卷积替换为PSA,从而得到一个新的block名为搞笑金字塔分裂注意(EPSA),该块能够在更细粒度的层次上有效地提取多尺度空间信息,并形成长距离通道依赖性。

        通过堆叠EPSA模块,提出了一种新的骨干网络EPSANet,它能够学习更加丰富的多尺度特征表示,并自适应的重新较准跨维通道注意权重。

        PSA模块主要分为四个步骤:

  1. 通过实现 Split 和 Concat(SPC)得到通道方向地多尺度特征maps;
  2. 利用SEWeight提取不同尺度特征maps地关注度,得到通道方向地关注度矢量;
  3. 利用Softmax对通道关注向量进行重新校准,得到多尺度通道地重新较准权重;
  4. 对重新较准地权重和对应地特征图应用逐元素乘积地运算,最后得到更丰富地多尺度特征信息的精化特征图。

        在金字塔结构中使用多尺度卷积核可以产生不同空间分辨率和深度,对于每个分割的部分,他独立地学习多尺度空间信息,并以本地方式建立跨通道交互。为了不增加计算量的情况下,处理不同尺度下的输入张量,引入了一种分组卷积方法,并将其并行应用于卷积核。其中多尺度核大小和组大小之间的关系可以写为: 

        多尺度特征maps的生成函数如下: 

         随后,对每一组特征进行分别进行SEWeight提取通道注意权重,然后将四组权重拼接在一块,然后使用Softmax,具体公式如下:

 

        提出的PSA模块可以将多尺度空间信息和跨通道注意力整合到每个分割的特征组的块中。因此,PSA模型可以更好地实现局部和全局通道注意力之间的信息交互。

六、【ARXIV2105】ResT: An Efficient Transformer for Visual Recognition

        论文摘要:本文提出了一种高效的多尺度视觉transformer,称为ResT,它可以作为图像识别的通用主干。与已有的采用标准transformer块处理固定分辨率原始图像的transformer方法不同,本文的方法具有以下优点:(1)构造了一种内存高效的多头自关注算法,它通过简单的深度卷积压缩内存,在保持多头多样性的同时,将交互作用投射到注意头维度上;(2)位置编码被构造为空间注意力,更灵活,可以处理任意大小的输入图像,而不需要插值或微调;(3)不再在每个阶段开始时直接进行标记化,而是将patch embedding设计为在标记图上带有stride的重叠卷积操作堆栈。我们全面验证了REST在图像分类和下游任务上的有效性。实验结果表明,提出的ResT算法比目前最先进的骨干网有很大的优势,显示了ResT作为强健骨干网的潜力。

        在本文中,我们提出了一种高效的计算机视觉通用主干ResT(以ResNet[9]命名),它可以弥补上述问题。如图2所示,ResT共享与ResNet完全相同的管道,即用于提取低级信息和加强局部性的stem模块,然后是构建分层特征图的四个阶段,最后是用于分类的head模块。每个stage由patch embedding、位置编码模块和具有特定空间分辨率和通道尺寸的多个transformer块组成。patch embedding模块通过分层扩展通道容量,同时通过重叠卷积运算降低空间分辨率来创建多尺度特征金字塔。与传统方法只能处理固定尺度的图像不同,我们的位置编码模块被构造为以输入令牌的局部邻域为条件的空间注意力。通过这样做,该方法更加灵活,可以处理任意大小的输入图像,而不需要插值或微调。此外,为了提高MSA的效率,我们构建了一种高效的多头自注意(EMSA),它通过简单的深度卷积操作来压缩内存。此外,我们在保持多头的多样性能力的同时,通过在注意头维度上投射交互来弥补每个头的输入标记的短长度限制。

ResT 有几个优点:

(1)构建了一个memory-Efficient Multi-Head Self-Attention,它通过简单的depth-wise卷积,并在保持多头的多样性能力的同时,将交互投射到注意力头维度;

 

preview

(2) 位置编码被构建为空间注意力,更灵活,可以处理任意大小的输入图像,无需插值或微调; 

preview

(3)代替在每个阶段开始时直接进行标记化,我们将patch嵌入设计为重叠的卷积运算堆栈,并在2D整形的标记图上大步前进。

preview

七、【ARXIV2105】Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks.

        self-attention有助于提高各种自然语言处理和计算机视觉任务中的性能,相比于卷积这类局部感知的操作,self-attention可以获取更多的长距离依赖,从而学习到融合了全局特征的feature。但是self-attention自身存在两个缺点:

(1)计算量太大,计算复杂度与pixel的平方相关;

(2)没有考虑不同样本之间的潜在关联,只是单独处理每一个样本,在单个样本内去捕获这类长距离依赖。例如,属于同一类别但分布在不同样本中的特征应该得到一致的处理。

        针对这两个问题,作者提出了一个external attention模块,仅仅通过两个可学习的external unit,就可以简化self-attention的时间复杂度,简化到与像素数量线性相关;同时由于两个unit是外部的,对于整个数据集来说都是共享的,所以还可以隐式地考虑到不同样本之间的关联。两个unit在实现的时候是两个线性层,因此可以直接进行端到端的反向传播进行优化。

preview

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值