知识蒸馏——Distilling the Knowledge in a Neural Network

最新推荐文章于 2024-07-29 16:26:39 发布

大音希声呀

最新推荐文章于 2024-07-29 16:26:39 发布

阅读量863

点赞数

分类专栏：知识蒸馏文章标签：深度学习机器学习算法

本文链接：https://blog.csdn.net/qq_47056652/article/details/124258610

版权

知识蒸馏专栏收录该内容

1 篇文章 0 订阅

订阅专栏

知识蒸馏是2015年由辛顿提出的一种方法，旨在解决大型神经网络在资源有限的设备上运行的问题。通过教师网络生成soft target，指导学生网络学习更丰富的相对信息，从而压缩模型并保持高性能。该方法通过损失函数结合硬标签和软标签来优化学生网络，使其预测更接近教师网络的输出。

摘要由CSDN通过智能技术生成

Distilling the Knowledge in a Neural Network是知识蒸馏的开山之作，辛顿于2015年发表的一篇论文提出！主要原因是之前提出的各种模型，无论是VGG16,Resnet，还是其他一些模型，它们都对实时性没有要求，而且模型都很大，计算量大，所以这样的模型是很难在资源有限的小型移动设备上应用的，所以辛顿提出了知识蒸馏的思想，就是用比较大的网络作为教师网络（teacher network），训练出soft target，这种soft target会表示出分类的相对信息，通俗的讲就是让机器去识别一辆宝马车，硬分类就是是宝马车为1，不是为0.而软分类是不仅知道是宝马车的概率，还知道它不是土豆的概率，不是拖拉机的概率，很明显，不是土豆和不是拖拉机的概率差别是很大的。所以，我们用软分类知道了非常重要的相对信息，这些信息会帮我们大大减少数据量。

知识蒸馏基本框架，最终的损失函数由两个损失函数组成（soft 和 hard）。其中，先让student 和标签去求损失，再让student 和teacher求损失，最后得出损失函数。通俗的讲就是，teacher就是个老师，他会告诉student这张图是车的概率是土豆的概率是垃圾车的概率等分别是多少，ground truth就是本教科书，告诉你它是标准答案的概率！