算法问题整理（九）

分享总结快乐

已于 2024-08-29 17:26:23 修改

阅读量414

点赞数 5

文章标签：算法

于 2024-08-19 20:33:24 首次发布

本文链接：https://blog.csdn.net/qingjing0413/article/details/141333922

版权

网络资料整理个人学习，感谢各位大神！（若侵则删）

问题26: 模型训练相关

模型蒸馏

参考：深度学习中的模型蒸馏技术：实现流程、作用及实践案例-CSDN博客

模型蒸馏（Model Distillation）最初由Hinton等人在2015年提出，其核心思想是通过知识迁移的方式，将一个复杂的大模型（教师模型）的知识传授给一个相对简单的小模型（学生模型），简单概括就是利用教师模型的预测概率分布作为软标签对学生模型进行训练，从而在保持较高预测性能的同时，极大地降低了模型的复杂性和计算资源需求，实现模型的轻量化和高效化。
模型蒸馏技术在计算机视觉、自然语言处理等领域均取得了显著的成功。

模型蒸馏技术的实现流程通常包括以下几个步骤：

（1）准备教师模型和学生模型：首先，我们需要一个已经训练好的教师模型和一个待训练的学生模型。教师模型通常是一个性能较好但计算复杂度较高的模型，而学生模型则是一个计算复杂度较低的模型。
（2）使用教师模型对数据集进行预测，得到每个样本的预测概率分布（软目标）。这些概率分布包含了模型对每个类别的置信度信息。
（3）定义损失函数：损失函数用于衡量学生模型的输出与教师模型的输出之间的差异。在模型蒸馏中，我们通常会使用一种结合了软标签损失和硬标签损失的混合损失函数（通常这两个损失都可以看作交叉熵损失）。软标签损失鼓励学生模型模仿教师模型的输出概率分布，这通常使用 KL 散度（Kullback-Leibler Divergence）来度量，而硬标签损失则鼓励学生模型正确预测真实标签。
（4）训练学生模型：在训练过程中，我们将教师模型的输出作为监督信号，通过优化损失函数来更新学生模型的参数。这样，学生模型就可以从教师模型中学到有用的知识。KL 散度的计算涉及一个温度参数，该参数可以调整软目标的分布。温度较高会使分布更加平滑。在训练过程中，可以逐渐降低温度以提高蒸馏效果。
（5）微调学生模型：在蒸馏过程完成后，可以对学生模型进行进一步的微调，以提高其性能表现。

这篇写的比较好：针对大模型的：