X-volution: On the Unification of Convolution and Self-attention卷积与自注意力的相辅相成

最新推荐文章于 2024-01-05 13:52:29 发布

wangtao990503

最新推荐文章于 2024-01-05 13:52:29 发布

阅读量625

点赞数 1

分类专栏：论文阅读文章标签：深度学习计算机视觉 cnn 视觉检测

本文链接：https://blog.csdn.net/wangtao990503/article/details/124670106

版权

该研究提出了一种新的计算模块X-volution，它结合了卷积和自注意力的优点。通过理论推导，作者设计了一个近似全局自注意力的像素移位自注意力（PSSA）方法，将自注意力转换为卷积操作。X-volution在训练时采用多分支结构，整合局部和非局部特征，而在推理阶段可以转化为纯卷积形式，降低了计算复杂性。这种方法提高了网络的学习能力和性能，且能适应各种现代神经网络架构。

摘要由CSDN通过智能技术生成

paper linkhttps://arxiv.org/pdf/2106.02253.pdf

摘要

卷积和自注意力是深度神经网络中的两个基本组成部分，前者以线性方式提取局部图像特征，而后者非局部编码高阶上下文关系。但是由于结构上的不同，缺乏在单个计算模块中同时应用这两种操作的方法。

在这项工作中，作者从理论上推导出了一个全局自注意力近似方案，该方案通过对变换特征的卷积运算来近似自注意力。基于近似方案，我们建立了一个由卷积和自注意力操作组成的多分支基本模块，能够统一局部和非局部特征交互。重要的是，一旦经过训练，这个多分支模块可以通过结构重新参数化有条件地转换为单个标准卷积操作，从而呈现一个名为 X-volution 的纯卷积风格的算子，可以作为原子操作插入任何现代网络。

介绍

阐述了一下卷积和自注意力的特点，局部和非局部，易于优化和依赖大量数据等等。（我觉得这些并不重要就不多写细节了，感兴趣的看原文吧）

这两个算子属于不同的计算模式，导致它们难以集成。卷积算子在局部窗口内执行预定义的加权平均，而自注意力通过动态系数的全局加权来工作。此外，在视觉领域，计算图像中所有位置之间的点积在计算上是被禁止的，这给在类似于 CNN 的框架中应用非局部操作带来了更多挑战。因此，最先进的网络要么单独进行卷积，要么单独进行自我注意。

这篇论文解决了上述问题，提出了名为X-volution的算子。

首先，作者从理论上证明了通过将上下文关系从局部区域传播到非局部区域来近似全局自注意力的可行性。由此作者开发了时间复杂度为 $O\left ( n \right )$ 的近似自注意力，称为像素移位自注意力（PSSA，Pixel Shift Self-Attention）。PSSA 将自注意力转换为对变换特征的卷积运算，这些变换特征是通过顺序元素移位和元素点积获得的。

其次，基于该近似方案，作者建立了一个多分支的网络模块，同时集成卷积和自注意力。多分支拓扑使模块不仅具备良好的优化特性，而且获得了捕捉长期关系的能力，从而表现出更强的学习能力和更好的性能。

更重要的是，多分支结构可以通过网络结构重新参数化有条件地转换为单个标准卷积操作，呈现纯卷积风格的算子 X-volution，可以插入任何现代网络作为原子操作。

实际上，卷积和self-attention可以分别看成是静态卷积（即内容无关的核）和动态卷积（即内容相关的核）。

方法

作者提出的名为X-volution的算子预计这将从两个方面获得非常令人印象深刻的性能改进，即本地与非本地/线性与非线性。在本节中，我们首先重新审视卷积和自注意力的基本数学公式，然后我们提出一个简单的全局自注意力近似方案，将其直接转换为卷积的兼容模式。最后，我们描述了在推理阶段如何有条件地将卷积的分支和提出的自我注意近似合并成一个单卷积风格的原子算子。