在解释train from scratch(有说简称为TFS),即从头训练前,先说一下剪枝中的one-shot剪枝(一次剪枝)常见流程:
训练一个大模型 -> 在大模型中剪枝 -> 微调/从头训练
对于剪枝后的模型如何恢复精度目前有好几种方案:
- 从头训练(Trrain From Scratch):指只保留剪枝后的模型的结构,而不使用其剪枝后的权重。并随机初始化权重,再进行训练(通常使用和训练大模型时相同的学习率计划)。
- 微调(Finetune):剪枝后的模型使用小学习率继续训练。
在解释train from scratch(有说简称为TFS),即从头训练前,先说一下剪枝中的one-shot剪枝(一次剪枝)常见流程:
训练一个大模型 -> 在大模型中剪枝 -> 微调/从头训练
对于剪枝后的模型如何恢复精度目前有好几种方案: