Coordinate Attention for Efficient Mobile Network Design

Motivation

  1. 轻量化网络上的注意力机制。

  2. 其他注意力又什么问题?
    在这里插入图片描述
    (a) SENet:GAP操作将每个spatial特征图池化到 1 ∗ 1 1*1 11大小,相当于整合了这个特征图上的所有信息,达到了全局感受野的目的(理论上),然后经过系列变换(通道先将后升,节省参数)后将C维的结果分别加权回原来的特征图中(每个值都是该channel上特征图提取的结果,代表了该channel特征图的重要性,乘回去表示对不同channel进行不同程度的加权)。然后是有问题的什么呢?只考虑了channel上的注意力,那空间上的呢?被GAP直接池化为 1 ∗ 1 1*1 11,空间信息完全损失完了,没有任何利用,这也是池化诟病最大的地方(目前很多工作选择使用大stride的卷积代替池化)。

    如果不用GAP了,直接使用若干层卷积代替呢?貌似解决了(a)的问题,然而感受野呢?不够global,很多context信息没有cover到,这在检测和分割中尤为致命。

    (b) BAM和CBAM:第一个re-weight和SENet差别不大,第二个re-weight在干什么呢?空间上池化变成了channel上池化,这样空间信息保留了,在空间上做了加权,同时 7 ∗ 7 7*7 77的大卷积也是为了更大的感受野;此外, 7 ∗ 7 7*7 77感受野虽然大,但conver不到全局。

    (c.) Coordinate Attention: 直接双分支,分别在特征图水平方向和竖直方向做GAP操作,这样融合了水平和竖直方向的大感受野,同时竖直和水平方向的空间信息得以保留(该方向空间大小每有损失),然后系列变换后分别乘回原特征图,这样就融合了空间的注意力和通道的注意力,即Coordinate Attention。

怎么做的?

  • SENet:
    在这里插入图片描述
    其实就是GAP。然后得到的 z C z_C zC经过系列变换,sigmoid到[0,1]之间乘回原图。即: X ^ = X C ∗ σ z C \hat X = X_C * \sigma z_C X^=XCσzC

  • Coordinate Attention

    • 分两个方向GAP
      在这里插入图片描述
      在这里插入图片描述
    • concat起来+变换+非线性+生成权重
      在这里插入图片描述
    • 加权回去
      在这里插入图片描述

效果怎么样?

在这里插入图片描述
不同数据集上都稳步提点且高于SENet和CBAM

在这里插入图片描述
消融两个部分(单独用都和SENey差别不大),联合起来就直接碾压;参数和加乘运算提升不多。

在这里插入图片描述
在这里插入图片描述

其实就是式9中的k:k越大效果越好,说明确实是注意力那种增大了激活?同时,不同k下相对于其他注意力,Coordinate Attention效果都更好;同时不同backbone,都是最棒的,稳定提点。

在这里插入图片描述
r是用来变换通道数目,从而节省参数,当然会牺牲一定的性能,因为channel信息丢了一部分,而结果显示不同r下性能都稳步高于其他方法。

在这里插入图片描述
定性分析,确实"注意力"了。
在这里插入图片描述
换更强的backbone照样优秀,且稳定高于其他方法,万能trick。

分类上效果好,其他更难得细粒度任务如检测和分割呢?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
同样有效且效果霸道;在分割上异常有效,作者解释是分割这种pixel-level的任务更依赖于精确的空间信息(CA保留空间信息能力更强),因此和CA更配哦。

  • 6
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值