不重要的token可以提前停止计算!英伟达提出自适应token的高效视觉Transformer网络A-ViT,提高模型的吞吐量!...

本文介绍了英伟达在CVPR 2022提出的A-ViT,这是一种自适应token的高效视觉Transformer网络,通过减少处理的token数量提高模型推理速度。A-ViT利用自适应计算时间,根据输入图像复杂度动态调整计算,实现了在保持高精度的同时显著提高DeiT模型的吞吐量。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

本文分享 CVPR 2022 Oral 论文『A-ViT: Adaptive Tokens for Efficient Vision Transformer』,英伟达提出自适应token的高效视觉Transformer网络A-ViT,大大提高模型的吞吐量!

详细信息如下:

b35f52b97c824f5f60760b4fc7faa488.png


  • 论文链接:https://arxiv.org/pdf/2112.07658.pdf

      01      

摘要

本文提出了一种对不同复杂度图像,自适应调整推理代价视觉Transformer(ViT)的方法——A-ViT。A-ViT通过在推理过程中自动减少网络中处理的视觉Transformer中的token数量来实现这一点。

作者为这项任务重新制定了自适应计算时间(Adaptive Computation Time ,ACT),丢弃冗余的空间token。视觉Transformer的结构特性使本文的自适应token缩减机制能够在不修改网络结构或推理硬件的情况下加快推理速度。作者证明了A-ViT不需要额外的参数或子网络,因为本文的方法基于原始网络参数学习能够自适应停止。作者进一步引入了分布先验正则化,与之前ACT方法相比,它可以稳定训练。

在图像分类任务(ImageNet1K)中,作者表明提出的A-ViT在过滤信息性空间特征和减少总体计算量方面具有很高的效率。该方法将DeiT-Tiny和DeiT-Small的吞吐量分别提高了62%和38%,准确率仅下降0.3%,大大优于现有技术。

      02      

Motivation

Transformer是一种流行的神经网络结构,它使用高度表达性的注意力机制计算网络输出。它们起源于自然语言处理(NLP)社区,已被证明能有效地解决NLP中的广泛问题,如机器翻译、表征学习和问答。

最近,视觉Transformer在视觉界越来越受欢迎,并已成功应用于广泛的视觉应用,如图像分类、目标检测、图像生成和语义分割。目前,最流行的范例仍然是,vision transformers通过将图像分割成一系列有序的patch来形成token,并在token之间执行计算来解决底层任务。

使用vision transformers处理图像的计算成本仍然很高,这主要是因为token之间的交互次数是二次的。因此,在数据处理集群或边缘设备上部署vision Transformer是一项具有挑战性的任务,需要大量的计算和内存资源。

本文的重点是研究如何根据输入图像的复杂度自动调整视觉Transformer中的计算。几乎所有主流的视觉Transformer在推理过程中都有一个固定的成本,该成本独立于输入。然而,预测任务的难度随着输入图像的复杂性而变化。例如,从具有同质背景的单个图像中对汽车和人类进行分类相对简单;而在复杂背景下区分不同品种的狗更具挑战性。即使在单个图像中,与背景中的patch相比,包含详细对象特征的patch也能提供更多信息。受此启发,作者开发了一个基于输入自适应调整视觉Transformer中使用的计算的框架。

神经网络的输入依赖推理问题在以前的工作中已经得到了研究。之前工作提出了自适应计算时间(ACT),将神经模块的输出表示为由halting分布定义的平均场模型。这种公式将离散halting问题放松为一个连续优化问题,使总计算的上界最小化。然而,作者表明,视觉Transformer的均匀形状和tokenization使自适应计算方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值