不重要的token可以提前停止计算！英伟达提出自适应token的高效视觉Transformer网络A-ViT，提高模型的吞吐量！...

最新推荐文章于 2024-08-28 09:52:12 发布

我爱计算机视觉

最新推荐文章于 2024-08-28 09:52:12 发布

阅读量1.1k

点赞数 1

文章标签：大数据算法 python 计算机视觉神经网络

本文链接：https://blog.csdn.net/moxibingdao/article/details/125437714

版权

本文介绍了英伟达在CVPR 2022提出的A-ViT，这是一种自适应token的高效视觉Transformer网络，通过减少处理的token数量提高模型推理速度。A-ViT利用自适应计算时间，根据输入图像复杂度动态调整计算，实现了在保持高精度的同时显著提高DeiT模型的吞吐量。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享 CVPR 2022 Oral 论文『A-ViT: Adaptive Tokens for Efficient Vision Transformer』，英伟达提出自适应token的高效视觉Transformer网络A-ViT，大大提高模型的吞吐量！

详细信息如下：

论文链接：https://arxiv.org/pdf/2112.07658.pdf

摘要

本文提出了一种对不同复杂度图像，自适应调整推理代价视觉Transformer（ViT）的方法——A-ViT。A-ViT通过在推理过程中自动减少网络中处理的视觉Transformer中的token数量来实现这一点。

作者为这项任务重新制定了自适应计算时间（Adaptive Computation Time ，ACT），丢弃冗余的空间token。视觉Transformer的结构特性使本文的自适应token缩减机制能够在不修改网络结构或推理硬件的情况下加快推理速度。作者证明了A-ViT不需要额外的参数或子网络，因为本文的方法基于原始网络参数学习能够自适应停止。作者进一步引入了分布先验正则化，与之前ACT方法相比，它可以稳定训练。

在图像分类任务（ImageNet1K）中，作者表明提出的A-ViT在过滤信息性空间特征和减少总体计算量方面具有很高的效率。该方法将DeiT-Tiny和DeiT-Small的吞吐量分别提高了62%和38%，准确率仅下降0.3%，大大优于现有技术。

Motivation

Transformer是一种流行的神经网络结构，它使用高度表达性的注意力机制计算网络输出。它们起源于自然语言处理（NLP）社区，已被证明能有效地解决NLP中的广泛问题，如机器翻译、表征学习和问答。

最近，视觉Transformer在视觉界越来越受欢迎，并已成功应用于广泛的视觉应用，如图像分类、目标检测、图像生成和语义分割。目前，最流行的范例仍然是，vision transformers通过将图像分割成一系列有序的patch来形成token，并在token之间执行计算来解决底层任务。

使用vision transformers处理图像的计算成本仍然很高，这主要是因为token之间的交互次数是二次的。因此，在数据处理集群或边缘设备上部署vision Transformer是一项具有挑战性的任务，需要大量的计算和内存资源。

本文的重点是研究如何根据输入图像的复杂度自动调整视觉Transformer中的计算。几乎所有主流的视觉Transformer在推理过程中都有一个固定的成本，该成本独立于输入。然而，预测任务的难度随着输入图像的复杂性而变化。例如，从具有同质背景的单个图像中对汽车和人类进行分类相对简单；而在复杂背景下区分不同品种的狗更具挑战性。即使在单个图像中，与背景中的patch相比，包含详细对象特征的patch也能提供更多信息。受此启发，作者开发了一个基于输入自适应调整视觉Transformer中使用的计算的框架。

神经网络的输入依赖推理问题在以前的工作中已经得到了研究。之前工作提出了自适应计算时间（ACT），将神经模块的输出表示为由halting分布定义的平均场模型。这种公式将离散halting问题放松为一个连续优化问题，使总计算的上界最小化。然而，作者表明，视觉Transformer的均匀形状和tokenization使自适应计算方法