knowledge transfer

最新推荐文章于 2024-05-31 16:43:42 发布

klrp95

最新推荐文章于 2024-05-31 16:43:42 发布

阅读量2k

点赞数 1

分类专栏：论文调研

本文链接：https://blog.csdn.net/klrp95/article/details/88597201

版权

本文介绍了Hinton等人提出的知识蒸馏技术，旨在将复杂模型的知识转移到更小、更易部署的模型中。通过使用'软目标'，即大模型的类概率分布，小模型能够在较少数据上进行高效训练，从而获得类似大模型的泛化能力。知识蒸馏过程包括训练大模型、计算软目标和训练小模型，最终实现模型压缩与性能保持。

摘要由CSDN通过智能技术生成

distilling the knowlege in a neural network

Hinton et al. propose to compress knowledge learned from one model into another one which is too computationally expensive to train. 将从一个模型学到的知识压缩到另一个模型中

G.Hinton,O.Vinyals,andJ.Dean.Distilling the knowledge in a neural network. NIPS Workshop, 2014.

可以将模型集合中的知识（distil）提取到单个模型中去，从而获得更好的效果。

一种新的集成模型ensemble，由一个或多个完整模型和许多专家模型组成，这些模型能区分细粒度的类，而这些细粒度的类是容易混淆的。这种模型中的specialist models是并行训练的。

在大型的机器学习模型中，训练和部署阶段都是用了非常相似的模型来满足不同的需求，这就需要大量的数据集及计算。

cumbersome model是许多单独训练的模型的ensemble 或一个很大的，带着如dropout这样的regularizer的模型。当cumbersome model被训练好后，将它当知识提取 distil 到一个小的、便于应用的模型中去。

关于知识的一种抽象的观点是：一种学到的从输入向量到输出向量之间的映射。对于cumbersome models，学习在大量的classes中找到相应的class，训练目标 maximiaze the average log probability of the correct answer, 但是这种方法带来的影响是训练的模型会给每个类别一个概率，但是接近的类别和完全不搭边的类别的概率也是相差很大的。

目标是让模型拥有 generalize 的能力。一个将cumbersome model的泛化能力传输给 small model的方法是：将cumbersome model所产生的class probability作为“soft targets”来训练小模型。在这个 transfer 阶段，如果cumbersome model是一组simpler models的集合，我们可以使用每个model的算数或者几何均值作为soft targets。当soft targets有较高的entropy，就会比hard targets有更多的信息，且（pre）training cases之间的 gradients 之间会有更小的方差。所以小模型比起cumbersome model可以在更小的数据集上使用更高的学习率进行训练。

但会碰到一些类别对cross-entropy cost的影响过小的情况。Caruana and his collaborators通过使用logits（the inputs of the final softmax）而不是softmax输出的概率来作为小模型的学习目标。我们的模型“distillation”会对final softmax 进行升温，直到cumbersome model产生一个合适