Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT---Q-BERT:基于Hessian的超低精度BERT量化

本文介绍了Q-BERT,一种利用二阶Hessian信息进行BERT模型超低精度量化的方法。针对BERT在自然语言处理任务中的高内存占用和延迟问题,Q-BERT提出混合精度量化和组级量化策略,实现了13倍的模型参数压缩,4倍的嵌入表压缩,同时在SST-2、MNLI、CoNLL-03和SQuAD任务上保持了与基线相当的性能。在SQuAD上性能损失最大的原因是模型未收敛到局部最小值,这与训练策略有关。
摘要由CSDN通过智能技术生成

Abstract

在这里插入图片描述

基于Transformer的架构已经成为一系列自然语言处理任务的实际模型。特别是,基于BERT的模型在GLUE任务、CoNLL-03和SQuAD中获得了显著的精度增益。然而,基于BERT的模型有一个令人望而却步的内存占用和延迟。因此,在资源受限的环境中部署基于BERT的模型已经成为一项具有挑战性的任务。在这项工作中,我们使用二阶Hessian信息对微调BERT模型进行了广泛的分析,并利用我们的结果提出了一种将BERT模型量化到超低精度的新方法。特别地,我们提出了一种新的组级量化方案,并使用基于hessian的混合精度方法进一步压缩模型。我们在SST-2、MNLI、CoNLL-03和SQuAD的BERT下游任务上广泛测试了我们提出的方法。我们可以达到与基线相当的性能,但性能下降最多2.3%,即使是超低精度量化到2比特,对应的模型参数压缩高达13倍,嵌入表压缩高达4倍,以及激活。在所有任务中,我们观察到在SQuAD上调优BERT的性能损失最大。通过探讨基于Hessian的分析和可视化,我们表明这与BERT当前的训练/微调策略对SQuAD不收敛这一事实有关。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

土豆娃potato

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值