Residual Attention Network for Image Classification解读

Residual Attention Network for Image Classification

论文地址:https://arxiv.org/abs/1704.06904
程序地址:https://github.com/koichiro11/residual-attention-network

(1)目的:将极深卷积神经网络与注意力机制结合,取得了远超之前网络结构的准确度。
(2)贡献
1)提出了可堆叠网络结构:与ResNet中的Residual Block类似,并在可堆叠的基本模块中引入了注意力机制,可使网络模型能够很容易达到很深的层次。
2)提出了一种基于Attention的残差学习方式,与ResNet也一样,本文提出的模型也是通过一种残差的方式,使得非常深的模型能够容易的优化和学习,并且具有非常好的性能。
3)Bottom-up Top-down的前向Attention机制,在原有网络的基础上新增一个分支来提取attention,Bottom-up Top-down就是FCN中的特征图先变小,然后通过上采样将图像变大的方法,作者利用这种方法将特征权重添加到特征图上。
(3)相关工作
在这里插入图片描述Residual Attention Network是通过堆叠多个Attention Module来构建的,每个Attention Module分为2个分支:mask branch和trunk branch。trunk branch可以是当前任何一种卷积神经网络模型,mask branch通过对特征图的处理输出维度一致的注意力特征图。
mask branch中,特征图的处理操作主要包含为前向的降采样过程和上采样过程,前者是为了快速编码、获取特征图的全局特征,而后者主要是将提取出来的全局高维特征上采样之后与之前未降采样的特征组合在一起,目的使得上下文,高低纬度的特征能够更好的组合在一起。
然而,单纯的堆叠Attention Module会导致明显的性能下降。首先,因为Mask Branch的激活函数是Sigmoid,输出值在(0,1)之间, 反复的相乘会使特征值逐渐变小。其次Mask Branch可能会破坏trunk branch好的特征, 比如说将残差连接中的shortcut机制替换为Mask Branch,那么将会使得深层网络的梯度不能很好的反传。
为了解决单纯叠加注意力机制导致模型性能的下降,作者使用了下列公式来替代注意力机制的输出:

在这里插入图片描述
其中M(x)为Mask Branch的输出,F(x)为Trunk Branch的输出,那么当M(x)=0时,该层的输入就等于F(x),因此该层的效果不可能比原始的F(x)差,这一点也借鉴了ResNet中恒等映射的思想,M(x)与1相加之后可以很好的解决会降低特征值的问题,同时这样的加法,也使得Trunk Branch输出的feature map中显著的特征更加显著,增加了特征的判别性。
在这里插入图片描述
通过将这种残差结构进行堆叠,就能够很容易的将模型的深度达到很深的层次,具有非常好的性能。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值