torch笔记十七 | 丢弃法（Dropout）

最新推荐文章于 2024-03-04 12:58:08 发布

Hygge MrYang

最新推荐文章于 2024-03-04 12:58:08 发布

阅读量3.5k

点赞数 5

分类专栏： torch笔记文章标签：深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38276972/article/details/116273171

版权

torch笔记专栏收录该内容

24 篇文章 10 订阅

订阅专栏

文章目录

1. 动机
2. Dropout原理
3. 训练和测试
4. 小结

1. 动机

缓解过拟合的四种方法：

增加训练的数据
减小网络模型的容量
在损失函数上加入正则项（权重衰减）
Dropout丢弃法

一个好的模型需要对输入数据的扰动鲁棒：

使用有随机噪音的数据，等价于一个正则。正则就是使得网络权重值不会太大，避免过拟合的一种方法。
丢弃法：在层之间加入噪音。丢弃法也可当作一种正则。

2. Dropout原理

丢弃法对每个元素进行如下扰动：
$x_{i}^{'}=\begin{cases} 0 & \ p\\ \frac{x_{i}}{1-p} & \ otherize \end{cases}$
有 p 概率将数据变成零，1-p 概率将数据扩大。

另外，输入x，加入噪音后得到 $x^{'}$ ，但是我们希望加入噪声后的数据和原数据的期望一样，即 $E[x^{'}]=x$ 。 $E[x^{'}]=x$ 保证了训练时使用dropout和测试时不使用 dropout 结果的一致性。对使用丢弃法后的数据计算期望：
$E[x_{i}^{'}]=0\times p+\frac{x_{i}}{1-p}\times (1-p)=x_{i}$

可见满足我们期望的要求。

3. 训练和测试

dropout只在训练的时候使用，不在测试的时候使用。

训练的时候，通常丢弃法作用在隐藏全连接层的输出上，对于该层的输出进行dropout，相当于随机舍弃该层的神经元。在误差反向传播的时候，被舍弃的神经元相关的权重不会被更新。每一个batch进行一次新的dropout。

测试的时候，不使用dropout，dropout输出的是它本身，也保证了确定性的输出。因为正则项（包括L2正则化、dropout等方法）只在训练中使用，只对权重更新进行影响。

4. 小结

Dropout将一些输出项随机置0来控制模型复杂度。
常用在多层感知机的隐藏层输出上，很少使用在CNN中，在CNN中常用权重衰减。
丢弃概率（P）是超参数。
可以尝试把隐藏层稍微设置大一点点，Dropout的P也设置的大一些，效果会比不使用dropout的小隐藏层要好一些。

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
torch笔记十七 | 丢弃法（Dropout）

dropout
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。