一、背景和动机
卷积核自注意机制是两个很有效的特征提取方法,但这两个方法通常被认为是两种不同机制的方法。
卷积方法是对局部进行特征抽取,全局特征共享,自注意力方法是全局像素的权重提取。
本文作者认为这两者有很强的底层关系,所以从大范围上来说,这两者的计算机制是类似的。
之前也有一些工作将这两者进行结合,如:
- SENet,CBAM 等则说明了自注意机制可以对卷积网络模型起到帮助。
- SAN,BoTNet 等使用自注意模型来代替卷积操作
- AA-ResNet,Container 等将两者进行了结合,但两个模块分别使用了不同的 path,所以本质上还是分别使用了两种机制。
所以,两者之间的底层联系其实还没有被完全探索
基于此,作者开始了探索两者之间的关系
分解两者之后,作者认为他们都是依赖于 1x1 卷积的,所以作者提出了一个混合模型——ACMix,将两者结合在一起。
二、方法
1、将输入特征使用 1x1 卷积映射为中间特征
2、将该中间特征分别使用自注意和卷积进行处理
ACMix 的过程如图2c所示:
Stage 1:使用 3 个 1x1 卷积,将输入映射为 3 种不同的特征,并将没种特征切分为 N pieces,此时就得到了 3xN 个中间特征
Stage 2:对 Stage 1 得到的中间特征分别处理
- self-attention path:将中间特征聚合为 N 个组,每个组中包含了 3 个 pieces,每个 pieces 都来自于不同的 1x1 卷积产生的特征。然后将这 3 个 pieces 的特征用作 q、k、v,输入多头自注意模块中。
- convolution path:使用全连接层产生 k 2 k^2 k2 个特征图,然后通过平移和聚合,产生和卷积相同的效果。
最后,使用如下方法聚合两者: