【文献阅读】dropout distillation

最新推荐文章于 2024-05-07 11:31:54 发布

pearl30

最新推荐文章于 2024-05-07 11:31:54 发布

阅读量1k

点赞数 2

分类专栏：深度学习文章标签： dropout

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pearl30/article/details/76602158

版权

PMLR 2016

标准的dropout在测试阶段没有按照bayesian的思想在指数多个网络上做预测再平均，而是根据dropout的概率scaling weights来近似平均，这主要是基于计算有效性地考虑，但会损失准确率。
本文提出dropout distillation，更好的平均，保持计算有效性，提供更好的准确率。

标准的dropout是在前馈NN提出的，也使用于RNN。
本文讨论前馈NN，对RNN也适用。

经典标准的dropout的移除/保留开关作用于神经元的输出。
drop-connect 的移除/保留开关作用于网络连接connections，更细粒度。
本文讨论dropout情况，对drop-connect也适用。

model description

监督学习，前馈网络，
$\Theta$ 模型参数
$\sigma=\{\sigma_1,...,\sigma_n\}$ 门变量，作用在n个节点上

min θ E x, y, σ [l (y, f Θ, σ (x)]

$\min_\theta E_{x,y,\sigma}[l(y,f_{\Theta,\sigma}(x)]$

empirical risk approximation

min Θ 1 N \sum i = 1 N E σ [l (y i, f Θ, σ (x i

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【文献阅读】dropout distillation

构造用户定义的有效预测器集合，在其中找与理想dropout预测期最近的。。。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。