论文笔记——Deep Model Compression Distilling Knowledge from Noisy Teachers

论文地址:https://arxiv.org/abs/1610.09650

主要思想

这篇文章就是用teacher-student模型,用一个teacher模型来训练一个student模型,同时对teacher模型的输出结果加以噪声,然后来模拟多个teacher,这也是一种正则化的方法。
819060-20171012001923215-2044945914.png

1. teacher输出的结果加噪声以后,然后和student的输出结果计算L2 loss,作为student网络的反馈。

819060-20171023215217348-1728358185.png

2. 加噪声

819060-20171012002024449-516811945.png

3. 计算L2 loss

819060-20171012002030762-408986835.png

4. 反向传播,更新参数

819060-20171012002038465-707694388.png

5. 算法过程

819060-20171012002048887-79866820.png

  • 注意:加噪声的时候对输入进行了采样,不然直接全加也太暴力了吧。

等价于基于噪声的回归

819060-20171012002107699-1566249440.png
819060-20171012002111059-1953273830.png
819060-20171012002114965-1505805666.png
819060-20171012002119012-13193054.png

实验结果

1. 对比了不同噪声比例对结果的影响,其实就是调参的过程。

819060-20171012002125465-427611649.png

2. 比较了学生加噪声和教师加噪声,结果是教师加噪声效果更加明显。

819060-20171012002128824-1847675605.png

3. 比较了教师加噪声和一般的正则化操作(dropout)

819060-20171012002134449-1550467792.png

总结

本文想法比较简单,就是给teacher输出结果加噪声,美曰其名,learn from multi teachers.

转载于:https://www.cnblogs.com/zhonghuasong/p/7653619.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值