在线多分支融合——Knowledge Distillation by On-the-Fly Native Ensemble

最新推荐文章于 2025-04-23 13:13:39 发布

Law-Yao

最新推荐文章于 2025-04-23 13:13:39 发布

阅读量3.7k

点赞数 1

分类专栏：深度学习模型压缩优化加速文章标签：知识蒸馏模型压缩迁移学习深度学习

本文链接：https://blog.csdn.net/nature553863/article/details/82926558

版权

该文介绍了一种基于On-the-Fly Native Ensemble（ONE）的知识蒸馏方法，通过构建深层多分支网络作为教师模型，利用学生网络进行知识蒸馏。在训练过程中，教师网络和学生网络共同学习，最终可以得到性能优异的单分支或多分支模型。实验证明，这种方法相较于单一模型训练和传统的KD Learning、Peer Learning，能提供更好的性能且训练成本更低。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

"Knowledge Distillation by On-the-Fly Native Ensemble"这篇文章基于给定的基础网络（如Resnet等），通过在网络深层次构造多分支结构，且每个分支作为学生网络，能够融合生成推理性能更强的教师网络。进而，通过教师/学生网络的共同在线学习、教师知识的反馈蒸馏，能够训练得到性能优越的单分支模型或多分支融合模型。