在线多分支融合——Knowledge Distillation by On-the-Fly Native Ensemble

该文介绍了一种基于On-the-Fly Native Ensemble(ONE)的知识蒸馏方法,通过构建深层多分支网络作为教师模型,利用学生网络进行知识蒸馏。在训练过程中,教师网络和学生网络共同学习,最终可以得到性能优异的单分支或多分支模型。实验证明,这种方法相较于单一模型训练和传统的KD Learning、Peer Learning,能提供更好的性能且训练成本更低。
摘要由CSDN通过智能技术生成

"Knowledge Distillation by On-the-Fly Native Ensemble"这篇文章基于给定的基础网络(如Resnet等),通过在网络深层次构造多分支结构,且每个分支作为学生网络,能够融合生成推理性能更强的教师网络。进而,通过教师/学生网络的共同在线学习、教师知识的反馈蒸馏,能够训练得到性能优越的单分支模型或多分支融合模型。

基于ONE(On-the-Fly Native Ensemble)的知识蒸馏/训练框架如上图所示,深层的多分支网络共享相同的浅层网络,且多分支输出通过Gate Module(由FC、BN、ReLU及Softmax构成)的融合系数予以融合,作为教师网络的预测输出:

训练教师网络采用的loss,仅包含与真实标注之间的交叉熵损失(CE loss)。而训练每个分支网络(作为学生网络)的loss,除了CE loss,同时包含来自教师网络的暗知识,即KD loss。因此在线学习教师/学生网络的total loss如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值