#今日论文推荐# LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚，下游任务均实时

最新推荐文章于 2022-12-15 11:40:12 发布

wwwsxn

最新推荐文章于 2022-12-15 11:40:12 发布

阅读量222

点赞数

分类专栏：深度学习文章标签： transformer 深度学习计算机视觉

原文链接：https://www.aminer.cn/research_report/6295be1c7cb68b460fc69e57?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚，下游任务均实时

近两年来，ViT 在计算机视觉领域的取得了很多重大的突破。它们的高效设计主要受计算复杂度的间接度量（即 FLOPs）指导，但与吞吐量等直接度量存在明显差距。因此，LIT作者建议使用目标平台上的直接速度评估作为高效 ViT 的设计原则。
因此本文提出了 LITv2，一种简单而有效的 ViT，它以更快的速度在各种不同模型大小的频谱上与现有的最先进方法相比表现出色。LITv2 的核心是一种新颖的Self-Attention机制，这里称之为 HiLo。HiLo 的灵感来源于图像中的高频捕捉局部细节，低频聚焦于全局结构，而Multi-Head Self-Attention忽略了不同频率的特征。因此，建议通过将 Head 分解成两组来解耦注意力层中的高/低频模式，其中一组通过每个局部窗口内的Self-Attention对高频进行编码，另一组通过执行注意力来建模来自每个窗口的平均池化的低频key与输入特征图中的每个query位置之间的全局关系。
受益于前面2组的高效设计，通过对 FLOPs、GPU 上的速度和内存消耗进行全面基准测试，证明 HiLo 优于现有的注意力机制。在 HiLo 的支持下，LITv2 是主流视觉任务的强大支柱，包括图像分类、密集检测和分割。

现实世界的应用程序通常需要模型在有限的计算预算下进行最佳速度和精度权衡，例如无人机和自动驾驶。这激发了朝着高效 ViT 设计的大量工作，例如 PVT、Swin 和 Focal Transformer 等。为了衡量计算复杂度，最近 ViT 设计中广泛采用的度量是浮点运算的数量，即 FLOPs。但是，FLOPs 是一个间接指标，不能直接反映目标平台上的真实速度。例如，Focal-Tiny 在 GPU 上比 Swin-Ti 慢得多，尽管它们的 FLOPs 相当。

一般来说，最近 ViT 中间接指标 (FLOP) 和直接指标 (速度) 之间的差异可归因于2个主要原因。

论文题目：Fast Vision Transformers with HiLo Attention
详细解读：https://www.aminer.cn/research_report/6295be1c7cb68b460fc69e57?download=falsehttps://www.aminer.cn/research_report/6295be1c7cb68b460fc69e57?download=false
AMiner链接：https://www.aminer.cn/?f=cs

wwwsxn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐# LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚，下游任务均实时

#今日论文推荐# LITv2来袭 | 使用HiLo Attention实现高精度、快速度的变形金刚，下游任务均实时近两年来，ViT在计算机视觉领域的取得了很多重大的突破。它们的高效设计主要受计算复杂度的间接度量（即FLOPs）指导，但与吞吐量等直接度量存在明显差距。因此，LIT作者建议使用目标平台上的直接速度评估作为高效ViT的设计原则。因此本文提出了LITv2，一种简单而有效的ViT，它以更快的速度在各种不同模型大小的频谱上与现有的最先进方法相比表现出色。LITv2的核心是一种新颖的S...
复制链接

扫一扫

专栏目录