最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系,
以下是要写的文章,本文是这个系列的第五篇:
- Transformer:Attention集大成者
- GPT-1 & 2: 预训练+微调带来的奇迹
- Bert: 双向预训练+微调
- Bert与模型压缩
- Bert与模型蒸馏:PKD和DistillBert(本篇)
- ALBert(待续)
- MobileBert(待续)
- 更多待续
- Bert与AutoML (待续)
- 线性Transformer (待续)
- Bert变种
- Roberta: Bert调优
- Reformer (待续)
- Longformer (待续)
- T5 (待续)
- 更多待续
- GPT-3
- 更多待续
Overall
Bert模型虽然很火,但是模型太大,在device上基本不可用,要想更好的使用的话需要让模型变小。
而目前模型变小的技术大概有四种:
- 模型量化:即把float值变为int8,可以直接将模型降为原来的四分之一。速度也会有提高。
- 矩阵分解:大矩阵分解为小矩阵的乘积去拟合,可以显著降低size。