系列文章目录
【Dataset Shift】
文章目录
【阅读笔记】【AI测试】Born-Again Neural Networks
阅读笔记,非全文翻译
Abstract
- 知识蒸馏(Knowlodge Distillation,KD)意在使学生模型学到教师模型的知识,从而有更紧凑的体积,同时不牺牲太多的性能
- 文章从新的角度研究了KD方法:不压缩模型,而是对学生模型进行和老师模型一样的参数化训练(parameterized training)
- Born-Again Networks(BANs)在CV和NLP上都表现得比教师显著更好
- 基于DenseNets的BANs实验在CIFAR10上SOTA3.5%验证误差,CIFAR100上SOTA15.5%验证误差。
- 额外的实验,探索了两个distillation objectives:①CWTM②DKPP,两种方法都阐述了KD的组成部分,表明了教师输出对预测类和非预测类的影响。
1 Introduction
- Born-Again Trees设想:学习一棵与多数预测器性能相近的单树。
- KD方法中,虽然直接根据数据进行训练时,学生无法与教师相匹配,但蒸馏过程使学生更接近于与教师的预测能力相匹配。
- 在将知识从教师传授给能力相同的学生的实验中,意外地发现学生大大超过了他们的老师。
- 提出简单的再训练模式:在教师模型收敛后,我们初始化一个学生,并用两个目标来来训练它:①预测正确的标签;②输出的分布与教师尽可能接近。 这学生模型就称之为BANs。LSTM、DenseNet,ResNet的BAN都比它们验证误差小。
- KD引入的梯度包含两个项:
- 弱老师也能教出强学生
2 相关文献
2.1 知识蒸馏
- 神经网络的可解释性或透明性,依然是很模糊的
- 有与本文类似研究(Yim et al. 2017)表明,把KD应用到两个架构一样的模型上,学生模型训练的更快,且准确率更高。
与Yim研究的关键区别
3.