EfficientViT是什么?

EfficientViT是一种改进的ViT架构,通过线性注意力解决计算瓶颈,结合深度卷积增强局部特征,适用于高分辨率场景。它在保持全局特征提取的同时,降低了计算复杂度至线性。
摘要由CSDN通过智能技术生成

做实验用到了EfficientViT就去查阅了一些文献,本文记录一些自己对EfficientViT架构的理解~
ViT(Vision Transformer)是2020年提出、于2021年发表的的将自然语言处理(NLP)领域的transformer引入自然语言处理(CV)领域用于分类的训练模型,在公开数据集的训练中超过了Res,且越大的数据集训练效果越好。

与卷积神经网络(CNN)相比,ViT具有更强的全局信息捕获能力和远程交互能力,特别是在扩大训练数据大小和模型大小时表现出优于CNN的准确性[3],但是,在对高分辨率移动场景应用时,ViT不如CNN,此时便引入了EfficientViT,及高效率的ViT[4]。EfficientViT在此基础上可以达到高分辨率地计算的视觉识别效果。

EfficientViT用线性注意力代替了softmax注意力,解决了ViT的计算瓶颈,并保持了ViT的核心优势全局特征提取能力;同时通过深度卷积增强模型的局部特征提取能力,享受线性计算复杂度。线性注意力推导过程如公式如公式(1)、(2)所示。

仿照softmax函数计算公式,线性提出的相似度函数Sim(Q,K)公式(1)所示:
在这里插入图片描述
其中是核函数,算法中使用对硬件友好的ReLU。
线性注意力的广义形式推导如下:
在这里插入图片描述
如公式(2)所示,使用线性注意力只需要计算一次(和,然后重用即可,即此种方法只需要O(N)的计算成本和O(N)的内存;简而言之,EfficientViT可以利用矩阵乘法的关联属性计算复杂度,其计算量从二次优化到线性且不改变功能。

参考文献:
[1] Alexey Dosovitskiy, Lucas Beyer , Alexander Kolesnikov , Dirk Weissenborn , Xiaohua Zhai , Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021
[2] CAI H, GAN C, HAN S. EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation Visual Recognition[J]. 2022.

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值