Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT---Q-BERT：基于Hessian的超低精度BERT量化

土豆娃potato

已于 2022-05-05 19:41:34 修改

阅读量996

点赞数

分类专栏：模型量化论文文章标签：量化论文

于 2022-05-05 18:19:16 首次发布

本文链接：https://blog.csdn.net/m0_49234921/article/details/124594625

版权

模型量化论文专栏收录该内容

23 篇文章 11 订阅 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Q-BERT，一种利用二阶Hessian信息进行BERT模型超低精度量化的方法。针对BERT在自然语言处理任务中的高内存占用和延迟问题，Q-BERT提出混合精度量化和组级量化策略，实现了13倍的模型参数压缩，4倍的嵌入表压缩，同时在SST-2、MNLI、CoNLL-03和SQuAD任务上保持了与基线相当的性能。在SQuAD上性能损失最大的原因是模型未收敛到局部最小值，这与训练策略有关。

摘要由CSDN通过智能技术生成

论文标题：Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT---Q-BERT：基于Hessian的超低精度BERT量化

Abstract
1 Related Work
- Model compression模型压缩
- Compressed NLP model
2 Methodology
3 Experiment
- 3.1 Main Results
- 3.2 Effects of group-wise quantization--群体量化效果
4 Discussion
- - - - 4.1 Quantization effects on different modules---不同模块的量化效应
- 4.2 Qualitative Analysis----定性分析
5 Conclusion

Abstract

在这里插入图片描述

基于Transformer的架构已经成为一系列自然语言处理任务的实际模型。特别是，基于BERT的模型在GLUE任务、CoNLL-03和SQuAD中获得了显著的精度增益。然而，基于BERT的模型有一个令人望而却步的内存占用和延迟。因此，在资源受限的环境中部署基于BERT的模型已经成为一项具有挑战性的任务。在这项工作中，我们使用二阶Hessian信息对微调BERT模型进行了广泛的分析，并利用我们的结果提出了一种将BERT模型量化到超低精度的新方法。特别地，我们提出了一种新的组级量化方案，并使用基于hessian的混合精度方法进一步压缩模型。我们在SST-2、MNLI、CoNLL-03和SQuAD的BERT下游任务上广泛测试了我们提出的方法。我们可以达到与基线相当的性能，但性能下降最多2.3%，即使是超低精度量化到2比特，对应的模型参数压缩高达13倍，嵌入表压缩高达4倍，以及激活。在所有任务中，我们观察到在SQuAD上调优BERT的性能损失最大。通过探讨基于Hessian的分析和可视化，我们表明这与BERT当前的训练/微调策略对SQuAD不收敛这一事实有关。