【论文阅读】Born-Again Neural Network

系列文章目录

Dataset Shift



【阅读笔记】【AI测试】Born-Again Neural Networks

阅读笔记,非全文翻译


Abstract

  1. 知识蒸馏(Knowlodge Distillation,KD)意在使学生模型学到教师模型的知识,从而有更紧凑的体积,同时不牺牲太多的性能
  2. 文章从新的角度研究了KD方法:不压缩模型,而是对学生模型进行和老师模型一样的参数化训练(parameterized training)
  3. Born-Again Networks(BANs)在CV和NLP上都表现得比教师显著更好
  4. 基于DenseNets的BANs实验在CIFAR10上SOTA3.5%验证误差,CIFAR100上SOTA15.5%验证误差。
  5. 额外的实验,探索了两个distillation objectives:①CWTMDKPP,两种方法都阐述了KD的组成部分,表明了教师输出对预测类和非预测类的影响。

1 Introduction

  1. Born-Again Trees设想:学习一棵与多数预测器性能相近的单树。
  2. KD方法中,虽然直接根据数据进行训练时,学生无法与教师相匹配,但蒸馏过程使学生更接近于与教师的预测能力相匹配
  3. 在将知识从教师传授给能力相同的学生的实验中,意外地发现学生大大超过了他们的老师。
  4. 提出简单的再训练模式:在教师模型收敛后,我们初始化一个学生,并用两个目标来来训练它:①预测正确的标签;②输出的分布与教师尽可能接近。 这学生模型就称之为BANs。LSTM、DenseNet,ResNet的BAN都比它们验证误差小。
  5. KD引入的梯度包含两个项:
  6. 弱老师也能教出强学生

2 相关文献

2.1 知识蒸馏

  1. 神经网络的可解释性或透明性,依然是很模糊的
  2. 与本文类似研究(Yim et al. 2017)表明,把KD应用到两个架构一样的模型上,学生模型训练的更快,且准确率更高。

与Yim研究的关键区别
3.

2.2 Residual and Densely Connected Neural Networks

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值