模型蒸馏(Knowledge Distillation)是一种将大型复杂模型(教师模型)的知识迁移到小型轻量模型(学生模型)的技术,由Hinton等人于2015年提出。其核心思想是通过模仿教师模型的输出特征(而不仅仅是最终预测结果),使得学生模型在保持较小参数量级的同时,尽可能接近教师模型的性能。
一、核心原理
-
知识表示
- 软标签(Soft Labels):教师模型的输出概率分布(经过温度调节后的softmax结果),相比硬标签(one-hot编码)包含更多信息(如类别间相似性)。
- 中间层特征:教师模型的隐藏层输出或注意力矩阵(用于特征对齐)。
-
温度参数(Temperature)
通过引入温度参数 ( T ),软化概率分布: