论文信息
SensiMix: Sensitivity-Aware 8-bit index & 1-bit value mixed precision quantization for BERT compression
作者:Tairen Piao, Ikhyun Cho, U. KangID*
发表单位:Seoul National University
发表期刊:PLOS ONE
Received: August 26, 2021
Accepted: March 4, 2022
Published: April 18, 2022
Abstract
如何权衡预训练BERT压缩效果和精度是一直以来模型压缩领域需要考虑的问题,本文提出了一种新的基于量化的BERT压缩方法SensiMix,该方法考虑了BERT不同模块的敏感度。SensiMix将8bit和1bit量化应用于BERT敏感和不敏感部分,在最大化压缩率的同时最小化精度下降。
本文还提出了三种新的1bit训练方法来最小化精度下降: