知识蒸馏研究趋势展望

最新推荐文章于 2024-05-06 08:35:35 发布

特仑苏小小

最新推荐文章于 2024-05-06 08:35:35 发布

阅读量340

点赞数

分类专栏：知识蒸馏未来研究趋势文章标签：计算机视觉自然语言处理

本文链接：https://blog.csdn.net/s_l_w_/article/details/127655254

版权

知识蒸馏同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

未来研究趋势

1 篇文章 0 订阅

订阅专栏

如何确定何种知识是最佳的。

知识蒸馏中的知识是一个抽象的概念，网络的参数、网络的输出和网络的中间特征都可以视为知识。但是何种知识是最佳的，或者哪些知识以互补的方式能成为最佳的通用知识表示？为了回答这个问题，我们需要了解每种知识以及不同种类组合知识的作用。比如说，基于特征的知识通常用于模仿教师特征产生的过程，基于关系的知识常用于捕获不同样本之间或网络层之间特征的关系。当教师和学生的模型容量(“代沟” )较小的时候，学生只模仿教师的软目标就可以获得有竞争力的性能。而当师生的“代沟”较大时，需要将多种蒸馏的知识形式和方法结合来表示教师模型。虽然能明白多种知识的组合方式通常能提高学生网络的性能，但是使用哪些知识形式，方法和技术的组合是最优的，还尚无定论。

如何确定何处的知识是最佳的。

在基于特征的一些工作中，随机选择中间网络的某层特征作为知识，但是他们并没有提供一个理由来解释选择的这些网络层为什么能成为代表性知识。这主要是由于教师和学生模型结构的不一致导致的，即教师模型通常比学生模型拥有更多的网络层。因此，需要筛选教师模型中最具有代表性的特征。然而教师模型中哪些特征层是最具有代表性的？这也是一个未解决的问题。

在基于关系的知识蒸馏中，也一样无法解释该选择哪些层的关系知识作为学生模仿的对象。如 FSP 矩阵随机选择教师模型的两个网络层作为关系蒸馏的位置。关系知识蒸馏是容量无关的，即关系蒸馏仅仅需要获取的是网络层间或样本间的关系知识。因此这不是师生间的“代沟”问题，而是归咎于知识其实是一个“黑盒”问题。

如何定义最佳的师生结构。

知识蒸馏所传递的并非参数，而是抽取到的知识，因此知识蒸馏是网络架构无关的，也就是说任何学生都可以向任何教师学习。一般来说，容量更大的学生模型可以学习更多的知识，但是复杂度过大会延长推理时间。容量更大的教师模型隐含着较多的知识和更强的能力，但是并非能力越强的教师模型就能产生更佳的学生模型。同时每一个教师模型都有一个最强学生结构。目前的局限性体现在我们只能根据给定的教师模型的前提下找到最佳的学生模型，但是在未指定教师模型的情况下，目前还是无法确定最佳学生模型。

如何衡量师生间特征的接近程度。

知识蒸馏是要将教师网络中的知识迁移到学生模型中，迁移效果的好坏最终可以通过学生网络性能来体现.然而在网络训练的过程中，只能通过损失函数去判断教师和学生之间特征的接近程度. 因此需要提前设计好知识蒸馏的损失函数，如 KL 散度、均方误差(Mean Squared Error， MSE)和余弦相似性. 而损失函数的选取受算法和离群点等因素的影响，并且，不同损失函数的作用范围是不一样的. 例如，通过KL 散度衡量的两个随机分布上的相似度是非对称的. 余弦相似性强调两个向量的特征在方向上的差异，却没有考虑向量大小. MSE 在高维特征中的作用不明显，且很容易被随机特征混淆. 因此，衡量师生间特征接近程度的方法是多样化的，我们需要根据特定的问题和场景选取最合适的损失函数。

模型压缩和模型增强的深度融合。

模型压缩是将强大的复杂教师模型中的“知识”迁移到简单的学生模型中以满足低资源设备的应用要求，而模型增强用于获取高性能的复杂网络。模型压缩和模型增强的融合是将教师模型中的“特权信息”迁移或继续强化轻量级学生模型的性能。

知识蒸馏在数据样本增强上的应用。

深度学习是数据驱动型的，往往需要很大的数据集才能避免过拟合，但是由于一些隐私问题，在某些领域上例如医疗，通常是无法获取大规模的原始数据集的。数据是链接学生和教师的桥梁，知识蒸馏是可以产生与原始数据集相近似的样本，也可以使用其他相关的数据知识来减轻对目标数据集的依赖，也可以通过教师和学生间部分网络的共同训练来提高具有小样本学生网络的性能。未来需要继续探索知识蒸馏在数据样本增强上的应用场景和高效的蒸馏方法来实现小样本学习(Few-Shot Learning)或零样本学习(zero-shot learning)。

知识蒸馏在数据标签上的应用。

可以利用知识蒸馏减少标注训练数据的麻烦，解决数据标签的问题。如果该领域存在着强大的教师网络，能通过知识蒸馏给无标签的数据增加注释。具体地，教师网络对未标记数据进行预测，并使用它们的预测信息充当学生模型数据的自动标注。以无标签数据作为输入的教师网络会产生软标签，这恰好能为学生网络提供学习的指导信息。即使该领域没有强大的教师网络，也可以通过跨模态知识蒸馏，将其它领域的知识充当无标签数据的监督信号。因此，知识蒸馏能够减少对数据标签的依赖，需要继续研究它在半监督或无监督学习上的应用。