知识蒸馏(Distillation)相关论文阅读(3)—— FitNets : Hints for Thin Deep Nets

知识蒸馏相关论文目录导读:

  1. Geoffry Hinton —— Distilling the knowledge in a neural network
  2. Saurabh Gupta —— Cross Model Distillation for Supervision Transfer
  3. Adriana Romero —— Hints for Thin Deep Nets

————————————————————————————————————————

《FitNets : Hints for Thin Deep Nets》
Adriana Romero

本文成果:

从一个wide and deep的网路蒸馏成一个thin and deeper的网络。


为什么要训练成更thin更deep的网络?

(1)thin:wide网络的计算参数巨大,变thin能够很好的压缩模型,但不影响模型效果。

(2)deeper:对于一个相似的函数,越深的层对于特征模拟的效果更好;并且从以往很多的论文、比赛中都能看出,深网络在训练结果上的优越性(例如VGG、GoogleNet)。

本文对于网络的改进:

在Hinton对softmax改造的基础上(详见论文分析1),对于中间层的权值匹配模拟学习,步骤如下:


文章给出的伪代码如下:


训练要点——两个loss function:

(1)Teacher网络的某一中间层的权值为Wt=Whint,Student网络的某一中间层的权值为Ws=Wguided。使用一个映射函数Wr来使得Wguided的维度匹配Whint,得到Ws'。其中对于Wr的训练使用MSEloss:


(2)改造softmax的loss(Hinton论文的方法,这里不赘述):




训练细节:

(1)TeacherNet选择大的网络(goodfellow:maxout),论文中均提取第二层的权值,权值进行fine tuning。

(2)StudentNet构建新的网络,提取最中间层的权值,从头训练,权值初始化要求如下:


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值