神经网络学习记录——知识蒸馏、软标签、硬标签

最新推荐文章于 2025-03-25 09:44:06 发布

爱吃芒果的小z

最新推荐文章于 2025-03-25 09:44:06 发布

阅读量3.7k

点赞数 6

文章标签：神经网络学习人工智能

本文链接：https://blog.csdn.net/m0_58979029/article/details/136945794

版权

知识蒸馏（Knowledge Distillation）是一种模型压缩技术，旨在通过训练一个大型、复杂的“教师”模型来传递其知识给一个小型、简单的“学生”模型。在知识蒸馏中，学生模型试图学习教师模型的行为和决策过程，以便在保持性能的同时减少模型的规模和计算量。

知识蒸馏的基本思想是利用教师模型的软标签（soft targets）来引导学生模型进行训练，而不仅仅是使用硬标签（即单独的预测结果）。教师模型的软标签包含了关于每个类别的概率分布信息，这提供了更丰富、更连续的信息，有助于学生模型更好地学习复杂的决策边界。

通过知识蒸馏，学生模型可以从教师模型的“知识”中获益，提高泛化能力和性能表现，同时保持较小的模型体积和计算成本。知识蒸馏已经被广泛应用于深度学习领域，特别是当资源有限或需要在移动设备等资源受限环境中部署模型时，知识蒸馏可以发挥重要作用。

硬标签是指在分类问题中使用的传统标签形式，通常是独热编码（one-hot encoding）的形式，其中每个样本只有一个类别被标记为1，其余为0。例如，在一个有10个类别的分类问题中，硬标签会以[0, 0, 1, 0, 0, 0, 0, 0, 0, 0]的形式表示样本的类别。

硬标签是一种离散的、不可微分的表示方式，模型只能根据最终的预测结果与硬标签之间的差异进行损失计算和参数更新。

软标签是相对于硬标签而言的另一种标签形式，它包含了关于每个类别的概率分布信息，使得每个类别都有一个介于0和1之间的概率值。软标签的概率分布可以提供更丰富、更连续的信息，能够传达更多的知识。

软标签是一种连续的、可微分的表示方式，允许模型在训练过程中根据概率分布的信息进行更细致的调整和学习。

软标签和硬标签之间的主要区别在于表示类别信息的方式：硬标签是离散的、单一类别的表示，而软标签是连续的概率分布信息。在知识蒸馏中，教师模型通常使用软标签来教导学生模型，以便传递更丰富的知识并提高性能。