Distilling the Knowledge in a Neural Network阅读笔记

最新推荐文章于 2021-02-01 15:16:23 发布

凡凡.cs

最新推荐文章于 2021-02-01 15:16:23 发布

阅读量266

点赞数

本文链接：https://blog.csdn.net/fanyuwgy/article/details/105739957

版权

文章背景知识

文章就是将大网络的知识想办法迁移到小网络。所以背景知识就是普通的机器学习知识，包括神经网络，softmax函数等等。

1.介绍文章来源

第一作者是Geoffrey Hinton，号称人工智能三大创始人（Geoffrey Hinton、Yann LeCun与YoshuaBengio）之一，神经网络之父，谷歌高级专家，谷歌学术引用达到了24w。

第二作者Oriol Vinyals：年少成名，《星际争霸》游戏第一。后来后参与了tensorflow和mapreduce的开发，同是谷歌研究院。学术引用67000。

第三作者Jeff Dean：谷歌研究员，tensorflow和mapreduce的主要研究者，谷歌引用95000。

2.作者要完成什么

作者最主要的工作就是提出了模型蒸馏并验证。

“蒸馏”（distillation）：把大网络的知识压缩成小网络的一种方法。

再在第三个实验的地方，又提出了专家网络。

3.作者怎样完成的

这里一个可行的办法是使用大模型生成的模型类别概率作为“soft targets”（使用蒸馏算法以后的概率，相对应的 head targets 就是正常的原始训练数据集）来训练小模型，由于 soft targets 包含了更多的信息熵，所以每个训练样本都提供给小模型更多的信息用来学习，这样小模型就只需要用更少的样本，及更高的学习率去训练了。

4.论文中的关键数学推导、算法

关键的部分就是模型蒸馏，就是改造了softmax，能让概率输出的差距不是那么大。

其中T就是温度。当 T = 1 是就是常规的 Softmax，而升温T，对softmax进行蒸馏，函数的图像会变得越来越平滑。

5.文章的实验部分是怎么设计的?

实验有四个部分，很详细的验证了作者的思想。

第一个：

第一个实验很简单，用了MINST数据集做实验，作者自己定义了两个网络，效果如下：

接着以net1作为教师网络，net2作为学生网络，训练结果如下：

第二个：

这是在 Automatic Speech Recognition（ASR）上的实验。其中basline的配置为8 层，每层2560个relu单元，softmax层的单元数为14000，训练样本大小约为700M，2000个小时的语音文本数据。

10XEnsemble是对baseline训练10次（随机初始化为不同参数）然后取平均；

蒸馏模型的配置为使用的候选温度为{1,2, 5, 10}, 其中T为2时表现最好

第三个：

作者在这里提到了专家网络，先来看看数据集JST，这是谷歌内部的一个数据集，有1亿张图片，15000个label，谷歌曾今为了训练他弄了六个月。训练一个大的集成模型可以利用并行计算来训练，训练完成后把大模型蒸馏成小模型，但是另一个问题就是，训练本身就要花费大量的时间，这一节介绍的就是如何学习专用模型集合，集合中的每个模型集中于不同的容易混淆的子类集合，这样可以减小计算需求。效果如下：

第四个：

这个又回归了类似前两个的实验。主要是为了对比soft target和hard target的效果。其中3%指的是作者在小模型中只用了3%的训练样本。

6.读后感

这篇文章还是听牛掰的，引用量已经到了3000，也是模型蒸馏的创始paper。现在比较热门的联邦学习，或者说是需要在移动设备上训练的小模型，蒸馏可能会有大用处。文章偏开创性工作，可以作为以后应用的一部分。

7.参考文献

文章原创性比较强，我在引用它的文献中找了几个：

Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017.

Carlini N, Wagner D. Towards evaluating the robustness of neural networks[C]//2017 ieee symposium on security and privacy (sp). IEEE, 2017: 39-57.

Wu J, Leng C, Wang Y, et al. Quantized convolutional neural networks for mobile devices[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4820-4828.

8.源码

作者没有提供源码，但是github上面很多三方的实现的demo。因为作者给的就是一个思想，所以实现的还是蛮多的。比如：

https://github.com/a7b23/Distilling-the-knowledge-in-neural-network

凡凡.cs

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Distilling the Knowledge in a Neural Network阅读笔记

文章背景知识文章就是将大网络的知识想办法迁移到小网络。所以背景知识就是普通的机器学习知识，包括神经网络，softmax函数等等。1.介绍文章来源第一作者是Geoffrey Hinton，号称人工智能三大创始人（Geoffrey Hinton、Yann LeCun与YoshuaBengio）之一，神经网络之父，谷歌高级专家，谷歌学术引用达到了24w。第二作者Oriol Vinyals...
复制链接

扫一扫