2022-2023年论文系列之模型轻量化和推理加速
前言
通过Connected Papers搜索引用PaBEE/DeeBERT/FastBERT的最新工作,涵盖:
- 模型推理加速
- 边缘设备应用
- 生成模型
- BERT模型
- 知识蒸馏
论文目录
-
SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for Accelerating BERT Inference
-
SKDBERT: Compressing BERT via Stochastic Knowledge Distillation
-
Knowledge Distillation with Reptile Meta-Learning for Pretrained Language Model Compression
-
Accelerating Inference for Pretrained Language Models by Unified Multi-Perspective Early Exiting
-
A Simple Hash-Based Early Exiting Approach For Language Understanding and Generation
主要内容:近两年(2022-2023年)动态早退的工作进展,粗读motivation和method以及experiment setup。
3. COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi-exit Language Models
a. 论文信息
发表会议:EMNLP 2022 main conference
作者:Bowen Shen, Zheng Lin, Yuanxin Liu, Zhengxiao Liu, Lei Wang, Weiping Wang
发表单位:
-
Institute of Information Engineering, Chinese Academy of Sciences(信工所)
-
School of Cyber Security, University of Chinese Academy of Sciences(中国科学院大学网络空间安全学院)
-
MOE Key Laboratory of Computational Linguistics, Peking University(北京大学计算语言学教育部重点实验室)
开源:https://github.com/sbwww/cost-eff
b. 内容
motivation
1)现有的静态压缩的模型没有意识到输入实例之间的不同复杂性,可能会导致简单和复杂输入的冗余和不足
2)具有早期退出的小型的模型面临预测和更深层的计算之间权衡的挑战
method
1)本文提出了一种集成静态模型压缩和动态推理加速的PLM协作优化方法,保留模型深度,缩小宽度生成细长模型,加速层级早退的速度。(早退+剪枝)
2)提出了一种联合训练方法,保留每个出口结构的贡献,而不仅仅是最后一层。(引入TA教师助理模型,蒸馏中间层和预测层)
pipelines
1)多出口模型获取:微调原BERT生成多出口的BERT模型作为TA模型和待剪枝的模型的主干;
2)剪枝:将上一步得到的待剪枝模型剪枝处理,得到细长模型;
3)特定任务的知识蒸馏:恢复隐藏层的表示和每层的预测结果,将TA模型作为教师模型,细长模型作为学生模型进行蒸馏。
experiment setup
数据集:
Baselines:
- 不同size的BERT模型:BERTBase,BERT6L-768H, BERT8L-256H
- 代表性静态压缩方法:DistilBERT,TinyBERT
- 动态加速方法:DeeBERT,PABEE,ElasticBERT
按照参数量分类:第一组为<20M参数量,第二组为>50M参数量
**实验环境:**单块 24GB RTX 3090 GPU
result
在GLUE基准上进行了实验,结果验证了该方法验证了Pareto最优性,获得高压缩率和高加速比,仅保留BERT模型的1/8参数和1/19 FLOPs。
simple input instances的实验对应motivation 1),验证静态压缩方法对于简单样本的考虑缺失。
-
消融实验:蒸馏的有效性
引入pred蒸馏对于改善多出口模型的浅层和深层的不一致有效。
-
消融实验:联合训练
1)两阶段训练对于深层有优势
2)与无exit的在浅层相比,COST-EFF性能差距不大,表明了蒸馏的有效性
c. Summary
本文的创新点来源于静态模型压缩(宽度剪枝)+动态模型压缩(EE)的方案,显然对于简单样本较多的数据集会有显著提升;在训练的时候,本文提出引入知识蒸馏用于提高多出口模型的性能。