知识蒸馏（Knowledge Distillation）

最新推荐文章于 2024-06-23 19:17:30 发布

NANCYGOODENOUGH

最新推荐文章于 2024-06-23 19:17:30 发布

阅读量1.1k

点赞数

通过结构复杂、计算量大但是性能优秀的教师神经网络，对结构相对简单、计算量较小的学生神经网络进行指导，以提升学生神经网络的性能。论文中提出了“暗知识”这一概念，即：比如我们在识别一张猫猫的图片的时候，一个性能良好的神经网络经过softmax变换后的输出，在一般该向量中代表猫猫的位置会得到一个非常高的值，比如，0.9，而代表其它分类的值在传统的研究中就不那么受重视了。Hinton大神认为，其它位置得到的值能够为我们提供一些额外的信息，比如，在猫得到0.9的同时，识别为狮子的值可能因为相似的缘故给到了0.09，而识别为汽车的值则可能只有0.0001。在我的理解中，这种目标间的相似性，就是“暗知识”的本质。为了要放大这种“暗知识”所包含的信息，Hinton在传统的softmax函数中加入温度参数T，变为下式所示：

知识蒸馏的步骤分别为

一、采用传统方式训练一个教师网络。

二、建立学生网络模型，模型的输出采用传统的softmax函数，拟合目标为one-hot形式的训练集输出，它们之间的距离记为loss1。

三、将训练完成的教师网络的softmax分类器加入温度参数，作为具有相同温度参数softmax分类器的学生网络的拟合目标，他们之间的距离记为loss2。

四、引入参数alpha，将loss1×(1-alpha)+loss2×alpha作为网络训练时使用的loss，训练网络。
————————————————
版权声明：本文为CSDN博主「小石学CS」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/shi2xian2wei2/article/details/84570620

————————————————
版权声明：本文为CSDN博主「小石学CS」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/shi2xian2wei2/article/details/84570620

NANCYGOODENOUGH

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
知识蒸馏（Knowledge Distillation）

通过结构复杂、计算量大但是性能优秀的教师神经网络，对结构相对简单、计算量较小的学生神经网络进行指导，以提升学生神经网络的性能。论文中提出了“暗知识”这一概念，即：比如我们在识别一张猫猫的图片的时候，一个性能良好的神经网络经过softmax变换后的输出，在一般该向量中代表猫猫的位置会得到一个非常高的值，比如，0.9，而代表其它分类的值在传统的研究中就不那么受重视了。Hinton大神认为，其它位置得到...
复制链接

扫一扫