【论文阅读】2_A Survey on Model Compression and Acceleration for Pretrained Language Models

zoetu

已于 2023-05-06 20:50:46 修改

阅读量495

点赞数

分类专栏：论文阅读深度学习模型推理加速文章标签：论文阅读语言模型深度学习

于 2023-04-27 15:44:06 首次发布

本文链接：https://blog.csdn.net/qq_43800119/article/details/130408016

版权

本文综述了预训练语言模型的压缩与加速方法，包括权重共享、低秩分解、剪枝、量化、知识蒸馏和早退策略。这些方法在保持性能的同时，降低了模型的内存占用和计算需求。未来的研究重点包括挑战性的评估标准、技术的融合、可解释性和鲁棒性增强，以及减少对人为设计的依赖。

摘要由CSDN通过智能技术生成

前言

综述part2，关于method和future。

method：现在常用于模型压缩与加速的方法（列举经典论文和最近的发展）
future：面临的挑战和未来发展方向

论文信息

A Survey on Model Compression and Acceleration for Pretrained Language Models

发表单位：University of California, San Diego

作者：Canwen Xu, Julian McAuley

发表会议： AAAI 2023

论文地址：http://arxiv.org/abs/2202.07105

发布时间：2022.2.25(v1) 2022.11.29(v2)

Method

1. Weight Sharing

定义：

权重共享认为大型模型比如Transformer都过度参数化。

Ref: Li, Z.; Wallace, E.; Shen, S.; et al. 2020. Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers. In ICML.

权重共享提供了一种通过在多个计算中重用相同参数来解耦计算和参数的方法。
权重共享可以减少推理内存占用和参数数量,因此具有内存和存储效率。

分类：

Encoder-Decoder Sharing
- 在神经机器翻译(NMT)Transformer模型中，Tied Transformer (Xia et al. 2019) 共享 Transformer 的编码器和解码器的权重。 Tied Transformer 的结果可与原Transformer 相媲美。
  
  Learns Compact and Accurate Models. In ACL. Xia, Y.; He, T.; Tan, X.; et al. 2019. Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder. In AAAI.
- Rothe、Narayan 和 Severyn (2020) 利用预训练语言模型检查点来初始化seq2seq模型，使用共享编码器和解码器来减少内存占用。
  
  Rothe, S.; Narayan, S.; and Severyn, A. 2020. Leveraging Pretrained Checkpoints for Sequence Generation Tasks. TACL.
Layer Sharing
- Dabre 和 Fujita (2019) 在NMT的所有 Transformer 层上共享权重，性能下降最小。Universal Transformer (Dehghani et al. 2019) 共享所有层的权重，允许使用动态暂停机制进行循环计算，并实现比普通 Transformer 更好的性能。
- ALBERT（Lan 等人，2020 年）将这一想法引入了用于自然语言理解 (NLU) 的预训练语言模型。虽然它不能减少计算开销并且对性能有不可避免的负面影响，但这种设计可以节省高达 95% 的磁盘空间来存储模型，这对于在存储空间有限的移动设备上部署至关重要。
  
  Lan, Z.; Chen, M.; Goodman, S.; et al. 2020. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. In ICLR.
- Takase 和 Kiyono (2021) 系统地研究了跨层共享权重的策略。探索为N层模型使用M层的参数（M<N）。
- Reid、Marrese-Taylor和Matsuo(2021)引入了一种称为"三明治式"参数共享的策略，该策略共享中央层的权重，第一层和最后一层独立。
  
  Reid, M.; Marrese-Taylor, E.; and Matsuo, Y. 2021. Subformer: Exploring Weight Sharing for Parameter Efficiency in Generative Transformers. In EMNLP (Findings).