【文献阅读】dropout distillation

PMLR 2016

标准的dropout在测试阶段没有按照bayesian的思想在指数多个网络上做预测再平均,而是根据dropout的概率scaling weights来近似平均,这主要是基于计算有效性地考虑,但会损失准确率。
本文提出dropout distillation,更好的平均,保持计算有效性,提供更好的准确率。

标准的dropout是在前馈NN提出的,也使用于RNN。
本文讨论前馈NN,对RNN也适用。

经典标准的dropout的移除/保留开关 作用于神经元的输出。
drop-connect 的移除/保留开关 作用于网络连接connections,更细粒度。
本文讨论dropout情况,对drop-connect也适用。


model description

监督学习,前馈网络,
Θ 模型参数
σ={ σ1,...,σn} 门变量,作用在n个节点上

minθEx,y,σ[l(y,fΘ,σ(x)]

empirical risk approximation

minΘ1Ni=1NEσ[l(yi,fΘ,σ(xi
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值