Distilling the Knowledge in a Neural Network[论文阅读笔记]

最新推荐文章于 2024-10-29 17:18:59 发布

GJCfight

最新推荐文章于 2024-10-29 17:18:59 发布

阅读量1.4w

点赞数 10

分类专栏：网络压缩深度学习文章标签：网络压缩迁移 distilled

本文链接：https://blog.csdn.net/qq_22749699/article/details/79460817

版权

深度学习同时被 2 个专栏收录

2 篇文章

订阅专栏

网络压缩

1 篇文章

订阅专栏

本文是Hinton大神在网络压缩与迁移学习方向挖的一个坑
原文链接Distilling the Knowledge in a Neural Network

这种方法感觉受到了ensemble的启发，利用大型（teacher net）网络提取先验知识，将这种先验知识作为soft target让微型网络（student network）学习,有点像Boost中第一个分类器学到后调整weight让第二个分类器学习。当然相似中也有不同之处

Introduction

主旨就是从复杂网络（teacher net）中抽取训练数据的分布‘教给’简易网络（student net）

复杂网络可以从

ensmeble models 中学习
从单独的大型网络（使用正则项或dropout）中学习

复杂网络通常通过最大化log probability去学习多分类，这有个副作用是模型通常会赋予非正确答案一定的概率，即使这些概率都很小但是有一些是明显大于其他的（类似于softmax）。

通过复杂网络产生的分类概率分布作为soft target来训练小模型

在transfer的过程中（即cumbersome network转向small network的时候）可以使用同样的训练集也可以使用单独的训练集（猜想：可能使用不同的训练集的时候效果会更好；但是文中说使用原始数据集效果更好）

值得注意的是 对于Mnist数据集中总是产生具有信心的正确结果，很多非正确数字的概率都是非常小的，举个栗子，对于正确的2来说，被分类为3的概率为 ${10}^{-6}$ 被分类为7的概率为 $10^{-9}$ 。在这种情况下soft target的帮助就很小，所以Caruana在其文章中使用log函数解决这一问题。本文利用蒸馏解决这个问题（蒸馏会使得target变得更加soft）

Distillation（蒸馏）

加入蒸馏后的softmax函数：

q i = e x p ( z i / T ) \sum j e x p ( z j / T ) (1)

$q_{i}=\frac {exp({z_i}/{T})}{\sum_jexp(z_j/T)} \tag 1$

这里T是超参数，文中说是‘温度’，经过该参数之后的softmax会更加平滑，分布更加均匀而大小关系不变。T参数在设置为1的时候就是平常的softmax函数。
在知识转换阶段，设置复杂网络与简易网络相同的T参数。在此之后再从新将T设置为1

根据这篇博客再加入T之后的softmax的概率分布更加平滑，作为soft target时简易（student）网络能学到更多东西
这里写图片描述

另外使用matlab做蒸馏
这里写图片描述

在hinton的slides中也可以看到更加平滑的概率slides

这里写图片描述

具体蒸馏结构如下图所示：

这里写图片描述

这里 $\lambda$ 是hard target与soft target的权重

1、训练大模型：先用hard target，也就是正常的label训练大模型。
2、计算soft target：利用训练好的大模型来计算soft target。也就是大模型“软化后”再经过softmax的output。
3、训练小模型，在小模型的基础上再加一个额外的soft target的loss function，通过lambda来调节两个loss functions的比重。
4、预测时，将训练好的小模型按常规方式（右图）使用。
这里参考

将hard target的参数设置的比较小可以得到较好的结果,在做梯度下降时需要将soft target的梯度乘以1/ $T^2$ ,这是因为将梯度的规模保持与hard target一样

ditiliation在特殊情况下相当于logits

首先给出交叉上的求导公式

$\partial C \partial z i = 1 T (q i - p i) = 1 T (e z i T \sum j e z j T) - 1 T (e v i T \sum j e v j T) (2)$ $\frac{\partial{C}}{\partial{z_i}}=\frac{1}{T}(q_i-p_i)=\frac{1}{T}(\frac{e^{\frac{z_i}{T}}}{\sum_je^{\frac{z_j}{T}}})-\frac{1}{T}(\frac{e^{\frac{v_i}{T}}}{\sum_je^{\frac{v_j}{T}}})\tag 2$
其中 $v_i$ 是cumbersome model产生的logits $v_i$ 相当于真实分布， $z_i$ 是distilled model
公式推导：
$q i = 1 T (e z i T \sum j e z j T) (2.1)$ $q_i=\frac{1}{T}(\frac{e^{\frac{z_i}{T}}}{\sum_je^{\frac{z_j}{T}}})\tag{2.1}$
$p i = 1 T (e v i T \sum j e v j T) (2.2)$ $p_i=\frac{1}{T}(\frac{e^{\frac{v_i}{T}}}{\sum_je^{\frac{v_j}{T}}})\tag{2.2}$
$c r o s s e n t r o p y = - \sum j p j \times l o g q j (2.3)$ $cross \ entropy = -\sum{_j} \ p_j \times log \ q_j \tag {2.3}$
对交叉熵求导即可得到公式(2)
并且作者给出当T非常大的时候distillation优化的目标等价于Caruana提取的对logits的平方误差求最优化
$\partial C \partial z i ≃ 1 T (1 + z i T N + \sum j z j T) (1 + v i T N + \sum j v j T) (3)$ $\frac{\partial C}{\partial z_i}\simeq \frac{1}{T}(\frac{1+\frac{z_i}{T}}{N+\frac{\sum_j z_j}{T}})(\frac{1+\frac{v_i}{T}}{N+\frac{\sum_j v_j}{T}})\tag 3$
当我们假设logits是zero-means的则 $\sum_jz_j=\sum_jv_j=0$
$\partial C \partial z i ≃ 1 N T 2 (z i - v i) (4)$ $\frac{\partial C}{\partial z_i}\simeq \frac{1}{NT^2}(z_i-v_i)\tag 4$

实验部分

初步试验 Mnist数据集

训练一个有两层具有1200个单元的隐藏层的大型网络（使用dropout和weight-constraints作为正则）值得注意的一点是dropout可以看做是share weights 的ensemble models
另外一个小一点的网络具有两层800个单元隐藏层没有正则

结果是第一个网络test error 67个，第二个是146个；再加入soft target并且T设置为20之后小型网络test error达到74个

另外需要注意一点的是：

When the distilled net had 300 or more units in each of its two hidden layers, all temperatures above 8 gave fairly similar results. But when this was radically reduced to 30 units per layer, temperatures in the range 2.5 to 4 worked significantly better than higher or lower temperatures.

该现象可能说明将概率设置的过于soften可能会导致一些问题尤其是在拟合能力较差的网络中

另外的重要发现

遗漏数据集所有的数字3做训练后，distilled model只有206个test error只有206 其中133是对3的辨识错误（测试集中3有1010个），很多错误是bias过低导致（？）到bias增加到3.5时distilled model 给了109个error，其中14个是3
训练集只有7和8时，distilled model有47.3%的测试错误，到bias降低7.6时优化了，降低了13.2%测试错误。
一个问题：这样手动修正bias增加正确率是否有普适的意义

剩下的就是在语音数据及的实验以及大型数据及JFT的实验。具体可以参考原文。