Dropout学习笔记

最新推荐文章于 2024-04-22 15:12:06 发布

coder1479

最新推荐文章于 2024-04-22 15:12:06 发布

阅读量4.6k

点赞数 5

分类专栏：深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_48742971/article/details/124577271

版权

深度学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

这里写目录标题

前言
笔记

前言

针对《动手学深度学习V2》视频中李沐老师关于Dropout的问答内容进行了整理。

笔记

如何看待Dropout

现在普遍将Dropout看作一种正则化方法。

最开始会把Dropout看作得到了多个子模型，后来大家发现应该是正则。
花书中也很大篇幅都是从子模型的角度写的。

关于丢弃概率超参数p

p是一个超参数，如果发现结果过拟合，就把p调大；如果欠拟合，就把p调小。

怎么让实验可重复？

保留随机种子。
不太需要可重复，只需要训练多次，精度都保持差不多。

丢弃法在预测（推理）时还要吗？

不需要，在推理时，就是直通。
正则项的作用是在更新权重的时候，让模型复杂度变低。
如果推理的时候用了Dropout，那么可能就需要多推理几次算平均。

Dropout用在全联接层

是的。

在解决过拟合的问题上，dropout和regularization主要区别是什么？

同样是防止过拟合。

Dropout和权重衰减都属于正则，为何dropout效果更好一些？

其实weight decay更常用，dropout只用在全连接层。
dropout更好调参一点，很直观，一般就0.1、0.9、0.5三个值。
比如：如果训练带一个隐藏层的网络，隐藏层大小64，效果还不错，那么下一步就是尝试将隐藏层大小设置为128，并且dropout 概率设置为0.5，一般来说，效果要好于不加dropout的大小是64的隐藏层。

深度学习，先要保证模型够强，然后用正则保证模型不会学偏。

Dropout会不会造成收敛变慢

会的。因为dropout会让部分参数不进行调整。

加了dropout，也意味着隐藏层大小变大，自然慢一点。

关注

5
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
Dropout学习笔记

针对《动手学深度学习v2》视频中李沐老师关于Dropout的问答内容进行了整理。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。