【Transformer】18、ACMix:On the Integration of Self-Attention and Convolution

在这里插入图片描述

一、背景和动机

卷积核自注意机制是两个很有效的特征提取方法,但这两个方法通常被认为是两种不同机制的方法。

卷积方法是对局部进行特征抽取,全局特征共享,自注意力方法是全局像素的权重提取。

本文作者认为这两者有很强的底层关系,所以从大范围上来说,这两者的计算机制是类似的。

之前也有一些工作将这两者进行结合,如:

  • SENet,CBAM 等则说明了自注意机制可以对卷积网络模型起到帮助。
  • SAN,BoTNet 等使用自注意模型来代替卷积操作
  • AA-ResNet,Container 等将两者进行了结合,但两个模块分别使用了不同的 path,所以本质上还是分别使用了两种机制。

所以,两者之间的底层联系其实还没有被完全探索

基于此,作者开始了探索两者之间的关系

分解两者之后,作者认为他们都是依赖于 1x1 卷积的,所以作者提出了一个混合模型——ACMix,将两者结合在一起。

二、方法

1、将输入特征使用 1x1 卷积映射为中间特征

2、将该中间特征分别使用自注意和卷积进行处理

在这里插入图片描述

ACMix 的过程如图2c所示:

Stage 1:使用 3 个 1x1 卷积,将输入映射为 3 种不同的特征,并将没种特征切分为 N pieces,此时就得到了 3xN 个中间特征

Stage 2:对 Stage 1 得到的中间特征分别处理

  • self-attention path:将中间特征聚合为 N 个组,每个组中包含了 3 个 pieces,每个 pieces 都来自于不同的 1x1 卷积产生的特征。然后将这 3 个 pieces 的特征用作 q、k、v,输入多头自注意模块中。
  • convolution path:使用全连接层产生 k 2 k^2 k2 个特征图,然后通过平移和聚合,产生和卷积相同的效果。

最后,使用如下方法聚合两者:
在这里插入图片描述

在这里插入图片描述

三、效果

在这里插入图片描述

  • 7
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆呆的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值