概念
蒸馏技术是将教师模型(复杂模型)的知识迁移到学生模型(小型高效)模型的技术,目的是在保留模型性能的同事,降低模型的计算复杂度和存储需求。
蒸馏技术的通过模仿教师模型的输出,训练较小的学生模型,实现知识传递。监视模型计算成本高但性能好,学生模型更轻量,速度快,占用内存少。教师模型利用复杂的网络结构和参数学习数据的复杂模式和特征,学生模型模仿教师模式模型的输出,学习数据特征。
蒸馏过程
(1)训练或者使用现成的教师模型;
(2)从教师模型提取推理数据;
(3)使用教师模型的输出作为监督信号,训练学生模型;
(4)调试学生模型,通过一系列损失函数和训练策略,使其效果接近教师模型。