第七周作业:注意力机制Part2

1.BAM: Bottleneck Attention Module

核心思想:沿着通道和空间两条不同的路径推断出attention map,该模块只作用在卷积块之间,所以参数优于SENet。

网络结构:由两条注意力通道, 一条路径是类似于SEnet的结构,先对F全局池化,得到一个Fc \in R^{C*H*W}的通道向量,然后在使用一个多层感知机(MLP,本次由两层全连接层组成),最后加入批处理规范化层(BN)以调整空间分支输出的比例。计算公式如下:

 另一条路径是空间注意力Fs,采用扩张卷积来高效地扩大感受野。 将特征F∈使用1×1卷积将R^{C*H*W}投影到降维R^{C/r*H*W}以整合和压缩跨通道维度的特征映射。然后使用两个3×3的扩展卷积层来有效地利用上下文信息,最后,使用1×1卷积将特征再次缩减为R^{1*H*W} 。最后加入批处理规范化层(BN),计算如下:

 

 两条路径然后合并,在合并它们之前将注意图扩展到RC×H×W,选择按元素求和来实现高效梯度流。再使用sigmoid函数来获得最终的3D attention map。

最后就是计算最后模块的输出 

 2.Dual Attention Network for Scene Segmentation

核心思想:将局部特征与其全局依赖性结合起来,在扩展FCN的基础上增加了两种类型的注意模块,分别在空间和通道维度上对语义依赖性进行建模。

模型结构:网络的特征输入两个并行的注意模块。最后,我们将两个注意模块的输出进行聚合。

位置注意模块:首先是一层卷积层,分别生成两个新的特征映射B和C。然后将它们重塑为R(C×N)。然后C和B的转置矩阵相乘,并应用softmax层来计算空间注意图S∈R(N×N),同时,对特征A卷积,生成新的特征映射D并将其重塑为R(C×N)。然后D和S的转置执行矩阵乘法,并将结果重塑为R(C×H×W)。最后将其乘以比例参数α,并对特征A执行元素求和输出E。

通道注意模块:将A重塑为R(C×N),然后在A和A的转置执行矩阵乘法。最后,我们应用softmax层来获得通道注意图,然后在X和A的转置执行矩阵乘法,并将其结果重塑为R(C×H×W) ,最后将结果乘以比例参数β,并对A执行元素求和运算,以获得最终输出E。

模块聚合:通过卷积层对两个注意模块的输出进行变换,并进行元素求和以实现特征融合。最后通过卷积层生成最终的预测图。

3.ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

核心思想:作者测试SENet,显示维度减少对通道注意预测产生了副作用,因为通道与其权重之间的对应关系是间接的,因此作者设计了ECA模块,该模块避免了维度缩减,并以有效的方式捕获跨通道交互。

避免降维:只考虑某通道了附近K个通道

可以通过核大小为k的快速1D卷积来实现 

 4.Improving Convolutional Networks with Self-Calibrated Convolutions

核心思想:本论文在研究CNN性能上不在关注模型结构,而是在考虑改进CNN的基本卷积特征变换过程,即自校准卷积。 

结构:给定一组形状为(C,C,kh,kw)的滤波器组K,首先将其统一划分为四个部分,每个部分负责不同的功能。 然后将输入X均匀地分成两个部分{X1,X2},然后将每个部分发送到一个特殊的路径中,用于收集不同类型的上下文信息。在第一种途径中,我们利用{K1,K2,K3}对X1执行自校准操作,得到Y1。在第二个路径中,我们执行一个简单的卷积运算:Y2=F1(X2)=X2∗K1,其目标是保留原始空间上下文。然后将两个中间输出{Y1,Y2}连接在一起作为输出。

自校准:在两个不同的尺度空间中进行卷积特征变换,一个原始尺度空间,其中特征映射与输入共享相同的分辨率,以及一个下采样后的小潜在空间。小的潜在空间中,由于其视野较大,因此被用作参考。

5.EPSANet

 核心思想:在DNN中嵌入注意力模块可以有效提高性能,但是也增大了模型复杂度,于是作者提出了一种新的轻量级和有效的注意模块PSA。

网络结构:首先使用自定义的SPC模块获得通道方向上的多尺度特征图,然后利用SEWeight模块提取不同尺度特征地图的注意力,得到通道方向的注意力向量,再通过使用Softmax重新校准通道方向的注意向量,获得多尺度通道的重新校准权重。最后应用于重新校准的重量和相应的特征图,以得到多尺度特征信息更丰富的细化特征图。

SPC模块:以多分支的方式提取输入特征图的空间信息,每个分支的输入通道维度为C,获得更丰富的输入张量位置信息,并对其进行多尺度并行处理。于每个分支,它独立地学习多尺度空间信息,并以局部方式建立跨通道交互。为了降低数据量,引入组卷积。

 SEWeight:

SENet的结构,首先全局平均池化,然后两层全连接层。

6.ResT: An Efficient Transformer for Visual Recognition(未读完)

网络结构:由MSA和FFN两个子层组成

7.Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks.

 

核心思想:原来的注意力机制大多关注样本本身,忽略了不同样本之间潜在的相关性。提出了一种新的注意机制——外部注意简单地使用两个级联线性层和两个归一化层。

网络结构:与自注意力机制类似但有不同,它计算输入像素和外部存储单元M∈RS×d之间的注意力,其中M是一个独立于输入的可学习参数,作为整个训练数据集的记忆。采用两种不同的存储单元Mk和Mv作为密钥和值,以提高网络的能力。并且分别对列和行进行规范化。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值