第一章 综述
知识蒸馏的目的是将大模型变成小模型,将小模型部署到移动终端设备上。
1.轻量化网络
2.知识的表示与迁移
hard targets和soft targets:
显然, soft targets包含更多的“知识”和“信息”, 像谁, 不像谁, 有多像,有多不像, 特别是非正确类别概率的相对大小(驴和车)。
3.蒸馏温度T
把比较硬的soft targets变得更软,信息暴漏的更明显
例如:
第二章 知识蒸馏
1.过程
教师网络进行预训练,生成soft labels,学生网络可能训练,也可能没有训练,生成了预测的soft predictions, 将教师网络的labels和学生的predictions做一个Loss, 同时学生网络也会生成一个hard prediction,它与真实标签的hard label做一个Loss(如上上图所示)。
2.实验结果
3.知识蒸馏的应用场景
模型压缩
优化训练,防止过拟合(潜在的正则化)
无限大、无监督数据集的数据挖掘
少样本、零样本学习
4.迁移学习和知识蒸馏
迁移学习指的是领域之间的迁移,例如将猫狗的识别迁移到医学图像的识别上去;知识蒸馏指的是模型之间的蒸馏。