前言
综述part2,关于method和future。
- method:现在常用于模型压缩与加速的方法(列举经典论文和最近的发展)
- future:面临的挑战和未来发展方向
论文信息
A Survey on Model Compression and Acceleration for Pretrained Language Models
发表单位:University of California, San Diego
作者:Canwen Xu, Julian McAuley
发表会议: AAAI 2023
论文地址:http://arxiv.org/abs/2202.07105
发布时间:2022.2.25(v1) 2022.11.29(v2)
Method
1. Weight Sharing
定义:
- 权重共享认为大型模型比如Transformer都过度参数化。
Ref: Li, Z.; Wallace, E.; Shen, S.; et al. 2020. Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers. In ICML.
-
权重共享提供了一种通过在多个计算中重用相同参数来解耦计算和参数的方法。
-
权重共享可以减少推理内存占用和参数数量,因此具有内存和存储效率。
分类:
-
Encoder-Decoder Sharing
-
在神经机器翻译(NMT)Transformer模型中,Tied Transformer (Xia et al. 2019) 共享 Transformer 的编码器和解码器的权重。 Tied Transformer 的结果可与 原Transformer 相媲美。
Learns Compact and Accurate Models. In ACL. Xia, Y.; He, T.; Tan, X.; et al. 2019. Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder. In AAAI.
-
Rothe、Narayan 和 Severyn (2020) 利用预训练语言模型检查点来初始化seq2seq模型,使用共享编码器和解码器来减少内存占用。
Rothe, S.; Narayan, S.; and Severyn, A. 2020. Leveraging Pretrained Checkpoints for Sequence Generation Tasks. TACL.
-
-
Layer Sharing
-
Dabre 和 Fujita (2019) 在NMT的所有 Transformer 层上共享权重,性能下降最小。Universal Transformer (Dehghani et al. 2019) 共享所有层的权重,允许使用动态暂停机制进行循环计算,并实现比普通 Transformer 更好的性能。
-
ALBERT(Lan 等人,2020 年)将这一想法引入了用于自然语言理解 (NLU) 的预训练语言模型。虽然它不能减少计算开销并且对性能有不可避免的负面影响,但这种设计可以节省高达 95% 的磁盘空间来存储模型,这对于在存储空间有限的移动设备上部署至关重要。
Lan, Z.; Chen, M.; Goodman, S.; et al. 2020. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. In ICLR.
-
Takase 和 Kiyono (2021) 系统地研究了跨层共享权重的策略。探索为N层模型使用M层的参数(M<N)。
-
Reid、Marrese-Taylor和Matsuo(2021)引入了一种称为"三明治式"参数共享的策略,该策略共享中央层的权重,第一层和最后一层独立。
Reid, M.; Marrese-Taylor, E.; and Matsuo, Y. 2021. Subformer: Exploring Weight Sharing for Parameter Efficiency in Generative Transformers. In EMNLP (Findings).
-
2. Low-Rank Factorization
定义:
- 神经网络中的权重矩阵通常是低秩的,表明模型权重的冗余。
- 一个自然的想法是将权重矩阵分解为两个或多个较小的矩阵以保存参数。
低秩分解的常用技术是奇异值分解 (SVD),A矩阵为mxn,分解矩阵 A = U Σ V T A = UΣV^T A=UΣVT,其中U(mxr)和V(nxr)都是正交矩阵,Σ(rxr)为含有A的非零奇异值的对角矩阵,空间复杂度从O(mn)降低为O(mr&#