1.背景介绍
模型蒸馏(Model Distillation)是一种用于知识蒸馏的技术,它可以将一个复杂的模型(称为蒸馏 teacher,或者原始模型)转化为一个更小、更简单的模型(称为蒸馏 student,或者蒸馏模型)。蒸馏student可以在计算资源有限的情况下,在准确度上接近或者超过蒸馏teacher,从而实现模型的压缩和知识传递。
蒸馏技术的核心思想是通过在蒸馏teacher和蒸馏student之间进行一系列的训练和评估过程,让蒸馏student从蒸馏teacher中学习到有价值的知识,并在有限的计算资源下达到更高的性能。
蒸馏技术的发展历程可以分为以下几个阶段:
- 2015年,Hinton等人提出了模型蒸馏的概念和基本方法,并在图像分类任务上进行了实验,证明了蒸馏技术可以有效地压缩模型并保持高度准确的性能。
- 2016年,FitNet等工作进一步提出了一种基于分层蒸馏的方法,将原始模型分为多个子模型,每个子模型只负责一部分输入的分类任务,从而实现模型的更细粒度压缩。
- 2017年,Knowledge Distillation等工作提出了一种基于知识蒸馏的方法,将原始模型的输出视为知识,通过将原始模型的输出作为蒸馏teacher,训练蒸馏student,从而实现更高效的模型压缩