这里写目录标题
前言
针对《动手学深度学习V2》视频中李沐老师关于Dropout的问答内容进行了整理。
笔记
如何看待Dropout
现在普遍将Dropout看作一种正则化方法。
最开始会把Dropout看作得到了多个子模型,后来大家发现应该是正则。
花书中也很大篇幅都是从子模型的角度写的。
关于丢弃概率超参数p
p是一个超参数,如果发现结果过拟合,就把p调大;如果欠拟合,就把p调小。
怎么让实验可重复?
保留随机种子。
不太需要可重复,只需要训练多次,精度都保持差不多。
丢弃法在预测(推理)时还要吗?
不需要,在推理时,就是直通。
正则项的作用是在更新权重的时候,让模型复杂度变低。
如果推理的时候用了Dropout,那么可能就需要多推理几次算平均。
Dropout用在全联接层
是的。
在解决过拟合的问题上,dropout和regularization主要区别是什么?
同样是防止过拟合。
Dropout和权重衰减都属于正则,为何dropout效果更好一些?
其实weight decay更常用,dropout只用在全连接层。
dropout更好调参一点,很直观,一般就0.1、0.9、0.5三个值。
比如:如果训练带一个隐藏层的网络,隐藏层大小64,效果还不错,那么下一步就是尝试将隐藏层大小设置为128,并且dropout 概率设置为0.5,一般来说,效果要好于不加dropout的大小是64的隐藏层。
深度学习,先要保证模型够强,然后用正则保证模型不会学偏。
Dropout会不会造成收敛变慢
会的。因为dropout会让部分参数不进行调整。
加了dropout,也意味着隐藏层大小变大,自然慢一点。