在自注意力机制中,模型计算输入序列中不同位置的相关性得分,以生成连接权重,从而关注序列中的重要部分。而卷积通过滑动窗口的方式,在输入上应用相同权重矩阵来提取局部特征。
如果将以上两者结合,就可以同时利用自注意力捕捉长距离依赖关系和卷积运算提取局部特征的能力,让模型更全面地理解输入数据(特别是在处理复杂任务时),实现更高的性能和更低的计算成本。比如典型案例X-volution与ACmix。
目前这种结合策略的高质量成果已有不少,我从中整理了10个比较有代表性的供同学们参考,原文以及开源代码都整理好了,希望能给各位的论文添砖加瓦。
论文原文以及开源代码需要的同学看文末
X-volution: On the unification of convolution and self-attention
方法:本文提出了一种新的原子操作符X-volution,将卷积和自注意力操作符集成在一起,通过实验证明了它在图像分类、目标检测和实例分割等任务上取得了显著的性能改进。
创新点:
-
提出了X-volution原子操作符&