目录
Selves Born-Again Networks集成的学习顺序
摘要
训练一个和teacher参数一样多的student网络,并且准确率超过了teacher网络
提出了两种蒸馏方法:(1)通过teacher max加权置信度 (2)打乱非预测类别的概率分布
这两种方法都用到了KD的组成成分,描述了teacher网络的输出在预测类别和非预测类别上的影响
引言
- 之前的工作
Born-Again Trees中,通过学习一个tree,来达到多个tree的效果,这个tree拥有所需要的特性,例如宣称的可解释性
KD,利用了非目标类别的隐藏信息,这些知识能帮助模型提升泛化能力
- KD的分析
KD的损失函数包含两部分:(1)非目标类别的隐藏信息 (2)真实标签信息,这部分的梯度是原来标签梯度的一个缩放
第二部分可以理解为:通过teacher网络基于最大类别的置信度,用重要性权重从真实label出发来训练
实验表明每一部分的重要性旨在量化隐藏信息的贡献
- 本文的工作
通过回忆 Minsky’s Sequence of Teaching 的方式,本文提出了一种间的重新训练的程序:在teacher网络收敛后,我们再重新初始化一个新的student网络,为了共同的目标--预测label和匹配teacher网络的分布
在DenseNets, ResNets 以及 LSTM-based sequence models上都有效
对于DenseNets,虽然收益递减,但是可以多步骤应用此方法获得收益
DenseNet可以通过这种方法引导ResNets获得超过DenseNet的效果
类似的,ResNets可以通过这种方法引导DenseNet获得超过ResNets的效果
因此弱teacher仍然可以提升student的新能,所以KD不需要一个强的teacher也能有效
相关文献
知识蒸馏
- 出于透明性和可解释性
有论文提出用tree压缩神经网和多tree预测器
有论文出于透明性和可解释性,用简单的tree和generalized additive models从teacher网路中迁移知识
有论文出于解释决策,将神经网络蒸馏到tree中
但是这里的透明性和可解释性是什么通常还是模糊不清的
- KD
有论文提出将集成神经网络的信息压缩到小网络中
有论文提出蒸馏teacher网络的logits
有论文提出用线性映射层来蒸馏teacher网络的中间隐藏层
一篇将ML应用于其他领域的论文飞研究隐藏知识的寻找
有论文训练了16层的网络,然后将其压缩到了5层的网络中
有论文提出将teacher网络的注意力图迁移到stude