论文阅读之:Residual Attention Network for Image Classification

论文贡献

  • 提出了 residual attention network
  • attention 结合了残差结构,可以应付更深层的训练
  • attention 模块采用了 bottom-up top-down 这种先降采样再升采样的方式来产生和融合不同尺度的特征图,这种结构受启发于 stacked hourglass 结构
    在这里插入图片描述

结构

  • 采用了两个分支:
    • mask 分支,采用了先降采样再升采样来获取不同维度的特征,然后对他们进行整合最后产生对应的 attention mask,这个 mask 与主干网络的分支进行乘积,得到 attention map
    • 主干分支(传统的 resnet,ResNetXt,Inception 网络)
      在这里插入图片描述

公式

在这里插入图片描述

  • 主干网络 T T T 将输入 x x x 进行处理得到 T i , c ( x ) T_{i,c}(x) Ti,c(x) 其中 i i i 代表了所有的空间位置, c c c 代表了当前 x x x 的通道数量,即按照通道,逐元素地将 M i , c ( x ) M_{i,c}(x) Mi,c(x) T i , c ( x ) T_{i,c}(x) Ti,c(x) 相乘,得到一个更加有重点的 “增强的特征图”,即 attention map H i , c ( x ) H_{i,c}(x) Hi,c(x)
  • 文中说,这个 attention mask 不仅可以充当在网络进行前向传播时候的特征筛选器(feature selector),也可以作为梯度反向传播时候的 gradient update filter(梯度更新过滤器),因为按照下面的公式:
    在这里插入图片描述
    • 其中 θ , ϕ \theta, \phi θ,ϕ 分别是 mask 和主干网络 T T T 需要学习的参数,按照公式(1)的描述,我们优化的目标应该是 H i , c ( x ) H_{i,c}(x) Hi,c(x),即我们需要使用这个值进行反向传播中梯度的计算: δ H i , c ( x , θ , ϕ ) δ ϕ = δ M ( x , θ ) T ( x , ϕ ) δ ϕ \frac{\delta H_{i,c}(x,\theta,\phi)}{\delta \phi}=\frac{\delta M(x,\theta)T(x,\phi)}{\delta \phi} δϕδHi,c(x,θ,ϕ)=δϕδM(x,θ)T(x,ϕ) 这个过程就是对主干网络进行求解的过程,而我们通过公式化简也可以看到, M ( x , θ ) M(x,\theta) M(x,θ) 这个时候充当了一个过滤器的作用。

Attention 残差

  • 就是把 attention mask 和 主干网络的结果相乘之后,再加上主干网络对应的 residual,就是 ( 1 + M i , c ( x ) ) ∗ F ( x ) (1+M_{i,c}(x))*F(x) (1+Mi,c(x))F(x) ,这个 F ( x ) F(x) F(x) 可以近似于上文中的 H ( x ) H(x) H(x),这篇文章把这个部分叫做 attention 残差。
  • M ( x ) M(x) M(x)的范围为 [ 0 , 1 ] [0,1] [0,1] ,当 M ( x ) M(x) M(x)近似于0时, H ( x ) H(x) H(x)将近似于原始特征 F ( x ) F(x) F(x)
  • 如果 M ( x ) M(x) M(x) 足够好,他可以帮助主干网络来抑制训练中的噪声(因为 M ( x ) M(x) M(x) 可以看做是一个 filter)
  • 此外,residual attention learning 既能很好地保留原始特征的特性,又能使原始特征具有绕过软掩模分支的能力,从而直接前馈(forward)到最顶层来削弱 mask 分支的特征筛选能力。
  • 堆叠的 attention 模块可以逐步地优化 feature map。
  • 如实验部分所示,残余注意网络深度增加到452并在CIFAR数据集上性能大大超过ResNet-1001

soft mask 分支

在这里插入图片描述

  • 每个 mask module 都是经历了一个降采样再升采样的过程,这个过程中先通过降采样来获得整个 image 的感受野和全局信息,然后通过升采样将 feature 还原到原始图片大小,并且通过降采样和升采样之间的 skip 跳层来整合不同尺度的特征。

空间和通道attention

  • 在我们的工作中,mask 分支提供的注意随主干网络特征的变化而变化。但是,在soft mask 输出之前,通过改变激活函数的归一化步骤,仍然可以在掩模分支中增加注意的约束。因此本文提出了三种方式进行最终的归一化步骤,这三种方法分别针对于 mixed attention(混合attention),channel attention(通道间 attention),以及 spatial attention(空间attention):
    在这里插入图片描述
    • 第一种方法就直接使用 s i g m o i d sigmoid sigmoid 作为激活函数来产生 attention
    • 第二种方法 f 2 f_2 f2 采用 l 2 − n o r m l2-norm l2norm 在所有的 channel 里面来移除空间 spatial 的信息
    • 第三种方法 f 3 f_3 f3 采用对每个通道的 feature map 进行归一化,然后sigmoid得到只与空间信息相关的软掩模。
    • 公式中 i i i 代表所有空间位置(spatial positions), c c c 代表了所有的通道, m e a n c , s t d c mean_c, std_c meanc,stdc 分别代表第 c c c 个通道的均值和标准差, x i x_i xi 代表在第 i i i 个空间位置的特征向量(feature vector)
  • 实验证明,通过 attention 自发地随着 feature 改变而不进行任何额外的限制往往会得到更好的结果。
    在这里插入图片描述
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

暖仔会飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值