Transformer可以不需要Softmax?Kakao提出了UFO-ViT,性能高,计算量还小

关注公众号,发现CV技术之美

 写在前面

视觉Transformer已成为计算机视觉任务的重要模型之一。虽然它们优于之前的卷积神经网络,但其复杂度是与输入特征长度N呈二次关系。

为了解决这个问题,在本文中,作者提出了UFO-ViT(Unit Force Operated Vision Trnasformer) ,通过消除非线性来减少自注意力操作的计算量。通过只修改Self-Attention的几行代码,UFO-ViT能够实现线性的复杂度而不降低性能。在图像分类和密集预测任务上,本文提出的UFO-ViT高于大多数基于Transformer的模型。

 1. 论文和代码地址

ebbc891947bea51b46d9efb7c4b20dbc.png

UFO-ViT: High Performance Linear Vision Transformer without Softmax

论文地址:https://arxiv.org/abs/2109.14382
代码地址:未开源
复现地址:https://github.com/xmu-xiaoma666/External-Attention-pytorch#30-UFO-Attention-Usage


 2. Motivation

最近,Transformer的一些研究成果在视觉任务和自然语言处理任务方面都有了许多突破的进展。通过消除基于CNN架构的归纳偏置,视觉Transformer在大数据集上显示出更好的可扩展性。在最近的研究中,基于Transformer的结构刷新了图像分类、目标检测和语义分割的SOTA性能。

基于Transformer的模型已经显示出与早期的SOTA模型相比有竞争力的性能。但是,尽管Transformer取得了巨大的成功,但使用自注意力的模式有众所周知的缺点。一是自注意力机制的时间和显存复杂度与输入长度N成二次关系。 计算自注意力时,与value矩阵相乘,提取两两之间的全局关系。

对于需要高分辨率的任务,例如目标检测或分割,这就是一个很关键的问题。如果宽度和高度加倍,那么自注意需要16倍的资源来计算。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值