神经网络训练可以看做是学习做题,常规训练是做完后对比答案,知识蒸馏的一个关键思想是软化目标,将中间结果作为监督信息,就好比老师不止教学生最终答案,还告诉他其中一些步骤的结果。
软化目标最初表现为修改softmax层,将他的输出平滑化
下面举例了一些论文,多是以teacher网络的中间输出作为监督信息
论文2
论文3
论文4
论文5,iccv19,学生比老师效果还好
一个题外话论文,bag of tricks for 提点
参考文献:
https://blog.csdn.net/zhongshaoyy/article/details/53582048
https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247506755&idx=2&sn=d958c2a5899cb92abac806bb9ff4f1c4&scene=21#wechat_redirect
https://zhuanlan.zhihu.com/p/51563760
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-2007-40.pdf
https://zhuanlan.zhihu.com/p/53864403
https://www.cnblogs.com/SuperLab/p/10750486.html
https://zhuanlan.zhihu.com/p/53864403