目录
摘要
不仅仅用到了输出,还用到了中间层作为监督信息
让学生网络变得更深的同时,让它变的更快
引言
- 之前蒸馏的做法:
之前一篇论文是用集成的模型作为老师模型,来得到一个更宽但更浅的网络;
另一篇论文是将老师模型的输出的软标签作为监督信息,来得到一个相同深度的网络
- 深层次网络有好处的证据:
相对于浅层信息,深度信息是呈指数形式地有表达能力;
sota都是深层的(19,22层)
- Curriculum Learning strategies有好处的原因:
使得模型一层一层低接受更难的问题,而不是直接接受最难的问题;
加速收敛,在一个非凸问题上找到更好的局部最小值
- 本文的目的:
利用网络深度的优势和CL训练的优势,从宽深网络出发训练出一个窄但更深网络
方法
KD的回顾
- 损失函数