关注公众号,发现CV技术之美
▊ 写在前面
视觉Transformer已成为计算机视觉任务的重要模型之一。虽然它们优于之前的卷积神经网络,但其复杂度是与输入特征长度N呈二次关系。
为了解决这个问题,在本文中,作者提出了UFO-ViT(Unit Force Operated Vision Trnasformer) ,通过消除非线性来减少自注意力操作的计算量。通过只修改Self-Attention的几行代码,UFO-ViT能够实现线性的复杂度而不降低性能。在图像分类和密集预测任务上,本文提出的UFO-ViT高于大多数基于Transformer的模型。
▊ 1. 论文和代码地址
UFO-ViT: High Performance Linear Vision Transformer without Softmax
论文地址:https://arxiv.org/abs/2109.14382
代码地址:未开源
复现地址:https://github.com/xmu-xiaoma666/External-Attention-pytorch#30-UFO-Attention-Usage
▊ 2. Motivation
最近,Transformer的一些研究成果在视觉任务和自然语言处理任务方面都有了许多突破的进展。通过消除基于CNN架构的归纳偏置,视觉Transformer在大数据集上显示出更好的可扩展性。在最近的研究中,基于Transformer的结构刷新了图像分类、目标检测和语义分割的SOTA性能。
基于Transformer的模型已经显示出与早期的SOTA模型相比有竞争力的性能。但是,尽管Transformer取得了巨大的成功,但使用自注意力的模式有众所周知的缺点。一是自注意力机制的时间和显存复杂度与输入长度N成二次关系。 计算自注意力时,与value矩阵相乘,提取两两之间的全局关系。
对于需要高分辨率的任务,例如目标检测或分割,这就是一个很关键的问题。如果宽度和高度加倍,那么自注意需要16倍的资源来计算。