FITNETS: Hints For Thin Deep Nets论文初读

目录

摘要

引言

方法

  KD的回顾

  提出基于Hint的训练方式(应该就是CL)

  与CL训练的关系

实验结果(挑选的有意思的)

实验分析

结论


摘要

不仅仅用到了输出,还用到了中间层作为监督信息

让学生网络变得更深的同时,让它变的更快

引言

  • 之前蒸馏的做法:

之前一篇论文是用集成的模型作为老师模型,来得到一个更宽但更浅的网络;

另一篇论文是将老师模型的输出的软标签作为监督信息,来得到一个相同深度的网络

  • 深层次网络有好处的证据:

相对于浅层信息,深度信息是呈指数形式地有表达能力;

sota都是深层的(19,22层)

  •  Curriculum Learning strategies有好处的原因:

使得模型一层一层低接受更难的问题,而不是直接接受最难的问题;

加速收敛,在一个非凸问题上找到更好的局部最小值

  • 本文的目的:

利用网络深度的优势和CL训练的优势,从宽深网络出发训练出一个窄但更深网络

方法

  KD的回顾

  • 损失函数

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值