【迁移学习|知识蒸馏】Transfer Learning & Knowledge Distillation联系与区别

985小水博一枚呀

已于 2024-09-15 15:40:14 修改

阅读量897

点赞数 13

分类专栏：学习笔记文章标签：学习迁移学习自然语言处理

于 2024-09-11 21:12:46 首次发布

本文链接：https://blog.csdn.net/gaoxiaoxiao1209/article/details/142148781

版权

71 篇文章 0 订阅

订阅专栏

Transfer Learning & Knowledge Distillation联系与区别

迁移学习（Transfer Learning）和知识蒸馏（Knowledge Distillation）是机器学习中常用的两种技术，尽管它们的目标和机制不同，但都涉及到如何从已有模型中提取并利用知识来提高新模型的性能或效率。以下是对两者的更详细说明及其联系和区别。

1.迁移学习 (Transfer Learning)

迁移学习是一种将一个任务中学习到的知识（通常是通过大规模训练数据集得来的）应用到另一个相关任务中的方法。它的核心理念是利用在源任务中训练好的模型的权重或特征表示，来帮助解决目标任务，特别是当目标任务数据有限时。

预训练阶段：在一个大规模的源任务数据集上训练一个深度模型。这个模型在源任务上学习到了有用的特征表示（比如，图像分类中的边缘、纹理、形状等视觉特征，或者自然语言处理中的语义特征）。
模型权重迁移：将预训练模型的部分或全部权重迁移到新的目标任务中。常见的做法是迁移低层的卷积层或编码层，因为这些层学习到的特征具有较好的通用性。
微调（Fine-Tuning）：将预训练模型的部分或全部权重迁移到新的目标任务中。常见的做法是迁移低层的卷积层或编码层，因为这些层学习到的特征具有较好的通用性

知识蒸馏是一种模型压缩技术，旨在通过训练一个小型的学生模型，使其在性能上尽可能接近或模仿一个已经训练好的大型教师模型。学生模型通过学习教师模型输出的概率分布（即“软标签”），获得教师模型中隐含的知识，而不仅仅依赖硬标签（目标分类标签）。

训练教师模型：首先在源任务上训练一个高性能的大模型（教师模型），这个模型通常非常复杂，可能包含很多参数，且计算量较大。
蒸馏阶段：通过将教师模型的输出概率分布作为目标，训练一个轻量级的学生模型。学生模型不仅要学习正确的分类标签，还要尽可能匹配教师模型的概率分布，从中学习到教师模型对类别之间关系的深层理解。
训练学生模型：学生模型通过在与教师模型相同的任务上训练，并通过损失函数（通常结合分类损失和蒸馏损失）来逼近教师模型的输出。

知识的传递：迁移学习和知识蒸馏都涉及到将已有模型的知识传递到另一个模型中。迁移学习将预训练模型的权重或特征迁移到新任务中，而蒸馏学习通过教师模型的输出概率分布传递知识到学生模型。
减少训练资源需求：两者的一个重要共同点是都能在数据或计算资源有限的情况下提升模型性能。迁移学习在目标任务上减少了对大规模数据集的需求，蒸馏学习通过将复杂模型压缩成小模型，减少了推理时的计算开销。
任务关联性：迁移学习通常要求源任务和目标任务之间存在一定的关联性（例如，源任务和目标任务都是图像分类），而蒸馏学习则是在同一个任务上进行教师-学生模型的转换，因此任务本身是相同的。

迁移学习：主要用于不同任务之间的知识共享。源任务和目标任务可以是相关的，但并不相同。例如，在ImageNet上训练一个模型，然后将其迁移到医学图像分类任务。
知识蒸馏：主要用于同一任务上的模型压缩。教师模型和学生模型执行的是相同的任务，例如教师模型在CIFAR-10数据集上分类，学生模型也是在同样的数据集上分类，只是结构和规模较小。

迁移学习：目标模型通常是源模型的一个延伸或修改，结构可以完全一样，或者部分调整。大多数情况下，预训练模型的特征层会被部分或全部保留。
知识蒸馏：教师模型和学生模型的结构可以完全不同。教师模型往往是一个复杂的深度模型，而学生模型可以是一个较浅或更简单的模型。这使得知识蒸馏成为一种非常灵活的模型压缩方法。