NeurIPS 2021 Transformer部署难?北大&华为诺亚提出Vision Transformer的后训练量化方法...

北大和华为诺亚在NeurIPS 2021提出针对Vision Transformer的后训练量化技术,有效解决Transformer部署难题。通过引入排名损失和混合精度量化,保持模型性能的同时降低存储和计算成本。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

本文分享 NeurIPS 2021 论文『Post-Training Quantization for Vision Transformer』,由北大&华为诺亚联合提出 Vision Transformer 的后训练量化方法,解决 Transformer 部署难的问题。

详细信息如下:

92fe3e38040852a70e56121dd88a0486.png

  • 论文链接:https://arxiv.org/abs/2106.14156

  • 项目链接:未开源

导言:

1c02a447e2065a4716d17fd7ea07571c.png

       最近,Transformer在各种计算机视觉应用中取得了不错的性能。与主流卷积神经网络相比,视觉Transformer通常具有复杂的结构,用于提取功能强大的特征表示,但是在移动设备上部署比较困难。

     在本文中,作者提出了一种有效的后训练量化算法,以减少视觉Transformer 的存储和计算成本。量化任务可以看做是分别为权重和输入找到最佳低比特的量化间隔。为了保持注意力机制的功能,作者在传统的量化目标中引入了排名损失(ranking loss),目的是在量化后保持自注意结果的相对顺序。

      此外,作者深入分析了不同层次的量化损失与特征多样性之间的关系,并利用每个注意图和输出特征的核范数探索了一种混合精度量化方案。该方法的有效性在多个基准模型和数据集上得到验证,其性能优于SOTA的后训练量化算法。基于在ImageNet数据集上使用的DeiT-B模型,本文的量化模型可以获得81.29%的top-1精度,量化约为8比特。

      01      

Motivation

随着自然语言处理(NLP)任务的应用,基于Transformer的模型在各种计算机视觉(CV)任务中显示出强大的能力,如图像分类、目标检测和图像超分辨率。这些模型通常具有数亿个参数,例如,ViT-L模型中有307M个参数和64G FLOPs,这在推理过程中既占用显存又占用计算。这给模型在资源有限的设备上运行和部署非常困难。

在各种压缩方法(如剪枝和权重分解)中,量化方法能够通过使用较低的位宽来压缩神经网络,而不改变模型结构,这对于精心设计的网络结构(如Transformer)特别有用。通过将浮点数操作调整为整数或位操作,量化权重和输入可以加快推理速度。在NLP中已经有一些基于Transformer的模型的训练感知量化方法。然而,这些方法不是为计算机视觉任务设计的,通常需要额外的微调或者训练。此外,在某些场景下,可能无法获得完整的训练数据来优化量化模型。

后训练量化是一种有效的模型压缩技术,它可以直接量化神经网络模型,而无需进行微调。大多数现有的后训练量化方法是为卷积神经网络(CNN)或递归神经网络(RNN)设计的。这些方法没有考虑到视觉Transformer的特性(例如,CNN中不存在注意机制),不完全适

以下是2020年后基于Transformer的时序预测模型,按照提出时间排序: 1. Performer(2020年6月):由Google Brain团队提出的一种新型Transformer模型,通过随机特征映射技术,大大降低了计算复杂度。Performer在语言建模、图像分类和时序预测等任务上均表现出色。 2. TimeSformer2021年3月):由Facebook AI Research提出的一种新型Transformer模型,专门用于视频时序预测任务。TimeSformer将视频帧序列视为一个时间序列,使用Transformer编码器来提取空间特征和时间特征,然后使用Transformer解码器进行时序预测。 3. ST-TNN(2021年5月):由清华大学提出的一种新型Transformer模型,专门用于时间序列预测任务。ST-TNN使用空间Transformer和时间变换网络来提取空间和时间特征,然后使用Transformer解码器进行时序预测。 4. SETR(2021年6月):由华为Noah's Ark实验室提出的一种新型Transformer模型,专门用于图像序列预测任务。SETR将图像序列看作一个时间序列,使用Transformer编码器提取空间特征和时间特征,然后使用Transformer解码器进行图像序列预测。 5. DALL-E 2(2021年7月):由OpenAI提出的一种新型Transformer模型,可以生成多种类型的图像。DALL-E 2使用Transformer编码器来提取文本特征,然后使用Transformer解码器将文本特征转换为图像序列。 6. LSTM-Transformer2021年8月):由微软亚洲研究院提出的一种新型Transformer模型,专门用于时间序列预测任务。LSTM-Transformer将LSTM和Transformer结合起来,使用LSTM编码器提取时间特征,然后使用Transformer解码器进行时序预测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值