Coordinate Attention for Efficient Mobile Network Design

最新推荐文章于 2024-06-09 08:00:00 发布

MindAndHand

最新推荐文章于 2024-06-09 08:00:00 发布

阅读量1.8k

点赞数 6

文章标签：人工智能深度学习注意力机制

本文链接：https://blog.csdn.net/qq_35226955/article/details/115230422

版权

Motivation

轻量化网络上的注意力机制。
其他注意力又什么问题？

(a) SENet：GAP操作将每个spatial特征图池化到 $1 * 1$ 大小，相当于整合了这个特征图上的所有信息，达到了全局感受野的目的(理论上)，然后经过系列变换(通道先将后升，节省参数)后将C维的结果分别加权回原来的特征图中(每个值都是该channel上特征图提取的结果，代表了该channel特征图的重要性，乘回去表示对不同channel进行不同程度的加权)。然后是有问题的什么呢？只考虑了channel上的注意力，那空间上的呢？被GAP直接池化为 $1 * 1$ ，空间信息完全损失完了，没有任何利用，这也是池化诟病最大的地方(目前很多工作选择使用大stride的卷积代替池化)。

如果不用GAP了，直接使用若干层卷积代替呢？貌似解决了(a)的问题，然而感受野呢？不够global，很多context信息没有cover到，这在检测和分割中尤为致命。

(b) BAM和CBAM：第一个re-weight和SENet差别不大，第二个re-weight在干什么呢？空间上池化变成了channel上池化，这样空间信息保留了，在空间上做了加权，同时 $7 * 7$ 的大卷积也是为了更大的感受野；此外， $7 * 7$ 感受野虽然大，但conver不到全局。

(c.) Coordinate Attention: 直接双分支，分别在特征图水平方向和竖直方向做GAP操作，这样融合了水平和竖直方向的大感受野，同时竖直和水平方向的空间信息得以保留(该方向空间大小每有损失)，然后系列变换后分别乘回原特征图，这样就融合了空间的注意力和通道的注意力，即Coordinate Attention。

怎么做的？

SENet:

其实就是GAP。然后得到的 $z_C$ 经过系列变换，sigmoid到[0,1]之间乘回原图。即： $\hat X = X_C * \sigma z_C$
Coordinate Attention
- 分两个方向GAP
- concat起来+变换+非线性+生成权重
- 加权回去

效果怎么样？

在这里插入图片描述
不同数据集上都稳步提点且高于SENet和CBAM

在这里插入图片描述
消融两个部分(单独用都和SENey差别不大)，联合起来就直接碾压；参数和加乘运算提升不多。

在这里插入图片描述

其实就是式9中的k：k越大效果越好，说明确实是注意力那种增大了激活？同时，不同k下相对于其他注意力，Coordinate Attention效果都更好；同时不同backbone，都是最棒的，稳定提点。

在这里插入图片描述
r是用来变换通道数目，从而节省参数，当然会牺牲一定的性能，因为channel信息丢了一部分，而结果显示不同r下性能都稳步高于其他方法。

在这里插入图片描述
定性分析，确实"注意力"了。

换更强的backbone照样优秀,且稳定高于其他方法，万能trick。

分类上效果好，其他更难得细粒度任务如检测和分割呢？

在这里插入图片描述

在这里插入图片描述
同样有效且效果霸道；在分割上异常有效，作者解释是分割这种pixel-level的任务更依赖于精确的空间信息(CA保留空间信息能力更强)，因此和CA更配哦。

MindAndHand

关注

6
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
Coordinate Attention for Efficient Mobile Network Design

Motivation轻量化网络上的注意力机制。其他注意力又什么问题？(a) SENet：GAP操作将每个spatial特征图池化到1∗11*11∗1大小，相当于整合了这个特征图上的所有信息，达到了全局感受野的目的(理论上)，然后经过系列变换(通道先将后升，节省参数)后将C维的结果分别加权回原来的特征图中(每个值都是该channel上特征图提取的结果，代表了该channel特征图的重要性，乘回去表示对不同channel进行不同程度的加权)。然后是有问题的什么呢？只考虑了channel上的注意力，那
复制链接

扫一扫