Dropout学习笔记

前言

针对《动手学深度学习V2》视频中李沐老师关于Dropout的问答内容进行了整理。

视频网址

笔记

如何看待Dropout

现在普遍将Dropout看作一种正则化方法。

最开始会把Dropout看作得到了多个子模型,后来大家发现应该是正则。
花书中也很大篇幅都是从子模型的角度写的。

关于丢弃概率超参数p

p是一个超参数,如果发现结果过拟合,就把p调大;如果欠拟合,就把p调小。

怎么让实验可重复?

保留随机种子。
不太需要可重复,只需要训练多次,精度都保持差不多。

丢弃法在预测(推理)时还要吗?

不需要,在推理时,就是直通。
正则项的作用是在更新权重的时候,让模型复杂度变低。
如果推理的时候用了Dropout,那么可能就需要多推理几次算平均。

Dropout用在全联接层

是的。

在解决过拟合的问题上,dropout和regularization主要区别是什么?

同样是防止过拟合。

Dropout和权重衰减都属于正则,为何dropout效果更好一些?

其实weight decay更常用,dropout只用在全连接层。
dropout更好调参一点,很直观,一般就0.1、0.9、0.5三个值。
比如:如果训练带一个隐藏层的网络,隐藏层大小64,效果还不错,那么下一步就是尝试将隐藏层大小设置为128,并且dropout 概率设置为0.5,一般来说,效果要好于不加dropout的大小是64的隐藏层。

深度学习,先要保证模型够强,然后用正则保证模型不会学偏。

Dropout会不会造成收敛变慢

会的。因为dropout会让部分参数不进行调整。

加了dropout,也意味着隐藏层大小变大,自然慢一点。

  • 5
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习中的Dropout是一种正则化技术,旨在减少过拟合问题。在神经网络训练过程中,Dropout通过临时随机将一些神经元的输出设置为0,从而减少了神经元之间的依赖性,增加了网络的鲁棒性和泛化能力。 Dropout的原理很简单,每个神经元的输出在训练时以概率p被设置为0,以概率1-p被保留(p通常设置为0.5)。由于整个网络的结构会随机改变,每个神经元都要适应不同的子网络,因此网络具备了对神经元丢失的鲁棒性。这样的随机丢失使网络变得不那么过分依赖某个具体的神经元,更有助于学习到更加鲁棒和泛化性能更好的特征。当网络训练完毕后,没有dropout的所有神经元都会被恢复,但每个神经元的输出会乘以(1-p)来保持输出的期望值不变。 Dropout的作用是减轻过拟合。在深度学习中,模型复杂度通常很高,参数众多,很容易导致过拟合。过拟合指的是模型在训练数据上表现良好,但在测试数据上表现较差。通过使用Dropout,可以减少神经元之间的共适应性,并且强制网络学习不同的特征,从而减少过拟合。Dropout相当于在每次训练迭代中训练了一个不同的网络子集,这样可以减少对任何一个特定的特征都有强依赖的情况。 总结来说,Dropout是深度学习中一种有效的正则化技术,通过随机丢失神经元的输出,可以减少神经元之间的依赖性,增加网络的鲁棒性和泛化能力,从而减轻过拟合问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值