知识蒸馏 & label smooth

最新推荐文章于 2024-05-18 13:01:50 发布

VIP文章遨游的菜鸡

最新推荐文章于 2024-05-18 13:01:50 发布

阅读量300

点赞数

分类专栏：深度学习文章标签：深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/qq_34405401/article/details/119559759

版权

文章目录

1.Knowledge distillation

1.1概念

https://blog.csdn.net/devcloud/article/details/108751755
知识蒸馏（knowledge distillation）是模型压缩的一种常用的方法，不同于模型压缩中的剪枝和量化，知识蒸馏是通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练这个小模型，以期达到更好的性能和精度。最早是由Hinton在2015年首次提出并应用在分类任务上面，这个大模型我们称之为teacher（教师模型），小模型我们称之为Student（学生模型）。来自Teacher模型输出的监督信息称之为knowledge(知识)，而student学习迁移来自teacher的监督信息的过程称之为Distillation(蒸馏)。

https://blog.csdn.net/nature553863/article/details/80568658
知识蒸馏的具体实现一般通过student模型训练时的total loss来实现：total loss包括soft loss和hard loss，其中soft loss是由student模型的输出和teacher输出的soft-target计算得到，hard loss由student模型的输出和样本真实标注（hard-target）的one-hot表示计算得到。最终total loss是soft loss和hard loss的加权平均。其中soft target交叉熵的加权系数越大，表明迁移诱导越依赖教师网络的贡献，这对训练初期阶段是很有必要的，有助于让学生网络更轻松的鉴别简单样本，但训练后期需要适当减小软目标的比重，让真实标注帮助鉴别困难样本。另外，教师网络的推理性能通常要优于学生网络，而模型容量则无具体限制，且教师网络推理精度越高，越有利于学生网络的学习。知识蒸馏过程如图1：
在这里插入图片描述
如上图所示，教师网络（左侧）的预测输出除以温度参数（Temperature）之后、再做softmax变换，可以获得软化的概率分布（软目标或软标签），数值介于0~1之间，取值分布较为缓和。Temperature数值越大，分布越缓和；而Temperature数值减小，容易放大错误分类的概率，引入不必要的噪声。针对较困难的分类或检测任务，Temperature通常取1，确保教师网络中正确预测的贡献

1.2知识蒸馏原理为什么有用？

（1）soft label包含了负标签的信息
softmax层的输出，除了正例之外，负标签也带有大量的信息，比如某些负标签对应的概率远远大于其他负标签。而在传统的训练过程(hard target)中，所有负标签都被统一对待。也就是说，知识蒸馏的训练方式使

最低0.47元/天解锁文章

遨游的菜鸡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
知识蒸馏 & label smooth

文章目录1.Knowledge distillation1.1概念1.2知识蒸馏原理为什么有用？1.3知识蒸馏的温度参数？1.4知识蒸馏的种类？1.5知识蒸馏的作用？1.6 知识蒸馏方法1.7online/自监督蒸馏2.label smooth2.1介绍2.2 label smooth + Knowledge distillation2.2.1论文贡献：2.2.2 Label smooth何时有用2.2.3 知识蒸馏与label smooth结合1.Knowledge distillation1.1概念
复制链接

扫一扫