【论文阅读】Born-Again Neural Network

Artistzq

于 2022-07-04 12:23:44 发布

阅读量1.3k

点赞数 1

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Artistzq/article/details/125372542

版权

系列文章目录

【Dataset Shift】

Reliable and Trustworthy Machine Learning for Health Using Dataset Shift Detection, NIPS, 2021

文章目录

系列文章目录
【阅读笔记】【AI测试】Born-Again Neural Networks
Abstract
1 Introduction
2 相关文献
- - 2.1 知识蒸馏
  - 2.2 Residual and Densely Connected Neural Networks
3 Born-Again Networks
4 实验
5 结果
6 讨论

【阅读笔记】【AI测试】Born-Again Neural Networks

阅读笔记，非全文翻译

Distilling the Knowledge in a Nerual Network解读，写的挺好

Abstract

知识蒸馏（Knowlodge Distillation，KD）意在使学生模型学到教师模型的知识，从而有更紧凑的体积，同时不牺牲太多的性能
文章从新的角度研究了KD方法：不压缩模型，而是对学生模型进行和老师模型一样的参数化训练（parameterized training）
Born-Again Networks（BANs）在CV和NLP上都表现得比教师显著更好
基于DenseNets的BANs实验在CIFAR10上SOTA3.5%验证误差，CIFAR100上SOTA15.5%验证误差。
额外的实验，探索了两个distillation objectives：①CWTM②DKPP，两种方法都阐述了KD的组成部分，表明了教师输出对预测类和非预测类的影响。

1 Introduction

Born-Again Trees设想：学习一棵与多数预测器性能相近的单树。
KD方法中，虽然直接根据数据进行训练时，学生无法与教师相匹配，但蒸馏过程使学生更接近于与教师的预测能力相匹配。
在将知识从教师传授给能力相同的学生的实验中，意外地发现学生大大超过了他们的老师。
提出简单的再训练模式：在教师模型收敛后，我们初始化一个学生，并用两个目标来来训练它：①预测正确的标签；②输出的分布与教师尽可能接近。 这学生模型就称之为BANs。LSTM、DenseNet，ResNet的BAN都比它们验证误差小。
KD引入的梯度包含两个项：
弱老师也能教出强学生

2 相关文献

2.1 知识蒸馏

神经网络的可解释性或透明性，依然是很模糊的
有与本文类似研究（Yim et al. 2017）表明，把KD应用到两个架构一样的模型上，学生模型训练的更快，且准确率更高。

与Yim研究的关键区别
3.

2.2 Residual and Densely Connected Neural Networks

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。