Born-Again Neural Networks论文初读

目录

摘要

引言

相关文献

  知识蒸馏

  Resnet和DenseNet

Born-Again Network

  开头

  Selves Born-Again Networks集成的学习顺序

  Dark Knowledge刨析

  对比试验设置

实验结果

  CIFAR-100

  其他对比就略掉把(太麻烦了,没啥用)

结论


摘要

训练一个和teacher参数一样多的student网络,并且准确率超过了teacher网络

提出了两种蒸馏方法:(1)通过teacher max加权置信度 (2)打乱非预测类别的概率分布

这两种方法都用到了KD的组成成分,描述了teacher网络的输出在预测类别和非预测类别上的影响

引言

  • 之前的工作

Born-Again Trees中,通过学习一个tree,来达到多个tree的效果,这个tree拥有所需要的特性,例如宣称的可解释性

KD,利用了非目标类别的隐藏信息,这些知识能帮助模型提升泛化能力

  • KD的分析

KD的损失函数包含两部分:(1)非目标类别的隐藏信息 (2)真实标签信息,这部分的梯度是原来标签梯度的一个缩放

第二部分可以理解为:通过teacher网络基于最大类别的置信度,用重要性权重从真实label出发来训练

实验表明每一部分的重要性旨在量化隐藏信息的贡献

  • 本文的工作

通过回忆 Minsky’s Sequence of Teaching 的方式,本文提出了一种间的重新训练的程序:在teacher网络收敛后,我们再重新初始化一个新的student网络,为了共同的目标--预测label和匹配teacher网络的分布

在DenseNets, ResNets 以及 LSTM-based sequence models上都有效

对于DenseNets,虽然收益递减,但是可以多步骤应用此方法获得收益

DenseNet可以通过这种方法引导ResNets获得超过DenseNet的效果

类似的,ResNets可以通过这种方法引导DenseNet获得超过ResNets的效果

因此弱teacher仍然可以提升student的新能,所以KD不需要一个强的teacher也能有效

相关文献

  知识蒸馏

  • 出于透明性和可解释性

有论文提出用tree压缩神经网和多tree预测器

有论文出于透明性和可解释性,用简单的tree和generalized additive models从teacher网路中迁移知识

有论文出于解释决策,将神经网络蒸馏到tree中

但是这里的透明性和可解释性是什么通常还是模糊不清的

  • KD

有论文提出将集成神经网络的信息压缩到小网络中

有论文提出蒸馏teacher网络的logits

有论文提出用线性映射层来蒸馏teacher网络的中间隐藏层

一篇将ML应用于其他领域的论文飞研究隐藏知识的寻找

有论文训练了16层的网络,然后将其压缩到了5层的网络中

有论文提出将teacher网络的注意力图迁移到stude

  • 6
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值