#今日论文推荐# LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚,下游任务均实时
近两年来,ViT
在计算机视觉领域的取得了很多重大的突破。它们的高效设计主要受计算复杂度的间接度量(即 FLOPs
)指导,但与吞吐量等直接度量存在明显差距。因此,LIT作者建议使用目标平台上的直接速度评估作为高效 ViT
的设计原则。
因此本文提出了 LITv2
,一种简单而有效的 ViT
,它以更快的速度在各种不同模型大小的频谱上与现有的最先进方法相比表现出色。LITv2
的核心是一种新颖的Self-Attention
机制,这里称之为 HiLo
。HiLo
的灵感来源于图像中的高频捕捉局部细节,低频聚焦于全局结构,而Multi-Head Self-Attention
忽略了不同频率的特征。因此,建议通过将 Head
分解成两组来解耦注意力层中的高/低频模式,其中一组通过每个局部窗口内的Self-Attention
对高频进行编码,另一组通过执行注意力来建模来自每个窗口的平均池化的低频key
与输入特征图中的每个query
位置之间的全局关系。
受益于前面2组的高效设计,通过对 FLOPs
、GPU 上的速度和内存消耗进行全面基准测试,证明 HiLo
优于现有的注意力机制。在 HiLo
的支持下,LITv2
是主流视觉任务的强大支柱,包括图像分类、密集检测和分割。
现实世界的应用程序通常需要模型在有限的计算预算下进行最佳速度和精度权衡,例如无人机和自动驾驶。这激发了朝着高效 ViT
设计的大量工作,例如 PVT
、Swin
和 Focal Transformer
等。为了衡量计算复杂度,最近 ViT
设计中广泛采用的度量是浮点运算的数量,即 FLOPs
。但是,FLOPs
是一个间接指标,不能直接反映目标平台上的真实速度。例如,Focal-Tiny
在 GPU 上比 Swin-Ti
慢得多,尽管它们的 FLOPs
相当。
一般来说,最近 ViT
中间接指标 (FLOP
) 和直接指标 (速度
) 之间的差异可归因于2个主要原因。
论文题目:Fast Vision Transformers with HiLo Attention
详细解读:https://www.aminer.cn/research_report/6295be1c7cb68b460fc69e57?download=falsehttps://www.aminer.cn/research_report/6295be1c7cb68b460fc69e57?download=false
AMiner链接:https://www.aminer.cn/?f=cs