Born-Again Neural Networks论文初读

最新推荐文章于 2022-11-26 19:41:31 发布

待墨痕干

最新推荐文章于 2022-11-26 19:41:31 发布

阅读量4k

点赞数 6

文章标签：知识蒸馏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37665984/article/details/103332477

版权

目录

Resnet和DenseNet

Born-Again Network

Selves Born-Again Networks集成的学习顺序

Dark Knowledge刨析

对比试验设置

其他对比就略掉把（太麻烦了，没啥用）

摘要

训练一个和teacher参数一样多的student网络，并且准确率超过了teacher网络

提出了两种蒸馏方法：（1）通过teacher max加权置信度（2）打乱非预测类别的概率分布

这两种方法都用到了KD的组成成分，描述了teacher网络的输出在预测类别和非预测类别上的影响

引言

之前的工作

Born-Again Trees中，通过学习一个tree，来达到多个tree的效果，这个tree拥有所需要的特性，例如宣称的可解释性

KD，利用了非目标类别的隐藏信息，这些知识能帮助模型提升泛化能力

KD的分析

KD的损失函数包含两部分：（1）非目标类别的隐藏信息（2）真实标签信息，这部分的梯度是原来标签梯度的一个缩放

第二部分可以理解为：通过teacher网络基于最大类别的置信度，用重要性权重从真实label出发来训练

实验表明每一部分的重要性旨在量化隐藏信息的贡献

本文的工作

通过回忆 Minsky’s Sequence of Teaching 的方式，本文提出了一种间的重新训练的程序：在teacher网络收敛后，我们再重新初始化一个新的student网络，为了共同的目标--预测label和匹配teacher网络的分布

在DenseNets, ResNets 以及 LSTM-based sequence models上都有效

对于DenseNets，虽然收益递减，但是可以多步骤应用此方法获得收益

DenseNet可以通过这种方法引导ResNets获得超过DenseNet的效果

类似的，ResNets可以通过这种方法引导DenseNet获得超过ResNets的效果

因此弱teacher仍然可以提升student的新能，所以KD不需要一个强的teacher也能有效

相关文献

知识蒸馏

出于透明性和可解释性

有论文提出用tree压缩神经网和多tree预测器

有论文出于透明性和可解释性，用简单的tree和generalized additive models从teacher网路中迁移知识

有论文出于解释决策，将神经网络蒸馏到tree中

但是这里的透明性和可解释性是什么通常还是模糊不清的

KD

有论文提出将集成神经网络的信息压缩到小网络中

有论文提出蒸馏teacher网络的logits

有论文提出用线性映射层来蒸馏teacher网络的中间隐藏层

一篇将ML应用于其他领域的论文飞研究隐藏知识的寻找

有论文训练了16层的网络，然后将其压缩到了5层的网络中

有论文提出将teacher网络的注意力图迁移到stude

最低0.47元/天解锁文章

关注

6
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
Born-Again Neural Networks论文初读

目录摘要引言相关文献知识蒸馏 Resnet和DenseNetBorn-Again Network 开头 Selves Born-Again Networks集成的学习顺序 Dark Knowledge刨析对比试验设置实验结果 CIFAR-100 其他对比就略掉把（太麻烦了，没啥用）结论摘要训练一个和teacher参...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。