基于神经网络的知识蒸馏方法最早在2014年提出:
其过程可以理解为使用复杂模型(优质模型)得到的预测结果(软标签)来训练学生网络,学生网网络同时输入软标签得到结果【与教师网络的软标签进行对比(此刻交叉熵的系数不仅有0和1)】和硬标签得到的结果(此时如果不进行这一步则可以实现无样本学习)。
具体内容参考B站up主 同济子豪兄 【【精读AI论文】知识蒸馏_哔哩哔哩_bilibili】的学习视屏,对该成果和方法有如下总结:
1、数据的标注(标签决定了结果):提升baseline的核心是数据由独热编码的hard target变成了能够表示相似度(?,这里依旧存疑)的soft target,因此可以理解为是数据层面的改变导致了学习性能的改变。【从侧面对交叉熵函数的优劣也进行了质疑(不关注标签不一致类别的得分而仅关注标签一致类别的结果),这里同时引出了均方差损失函数(对soft target的计算可否使用MSE损失函数)】
2、针对复杂网络与简易网络的定义(还未读完全文