网络轻量化 - 知识蒸馏（knowledge distillation）

最新推荐文章于 2025-03-24 11:56:59 发布

Bro_Jun

最新推荐文章于 2025-03-24 11:56:59 发布

阅读量2.7k

点赞数

文章标签：网络机器学习深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Bro_Jun/article/details/122321237

版权

本文介绍了知识蒸馏的概念，这是一种通过模仿预先训练好的大型网络（teacher）来训练小型网络（student）的技术，以实现模型的轻量化。文章探讨了集成模型的优缺点，并详细阐述了知识蒸馏的思想，包括引入温度参数T来丰富信息蒸馏，以及通过调整Loss Function实现student网络的学习。这种方法有助于解决深度学习模型在移动端应用的计算资源和效率问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文：《Distilling the Knowledge in a Neural Network》

目录

前期知识
算法部分
- 知识蒸馏方法
- - 引入温度参数 T（Temperature）
  - 组合两种 Loss

前期知识

集成模型（Ensemble Models）

通过结合了来自多个模型的决策，以提高最终模型的稳定性和准确性。

Bagging

从原始样本抽取训练集：每轮从原始样本集抽取 n 个样本，共进行 k 轮抽取，获得 k 个训练集
每次使用一个训练集获得一个模型，共得到 k 个模型
对 k 个模型的预测结果进行组合（例如投票法

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。