正则项只在训练时使用,他们在更新权重时让模型复杂度降低一点点,
dropout正则项方法之一,深度学习崛起前,最早提出的算法。
动机:一个好的模型,需要对你的输入数据鲁棒,无论加入多少噪音都有稳定的输出
使用有噪音的数据等价于一个正则,这个是随机噪音
丢弃法:在层之间增加噪音,相当于正则
通常适用:隐藏全连接层的输出上,丢弃是在训练过程中,推理过程中不丢弃
方法:随机选择一部分参数丢弃置为0 ,其余参数同比例增大,均值不变
实际应用场景:一个更深,更复杂的模型,使用dropout往往效果更好。
例如,模型a是一层128个参数的感知机,模型b有两层感知机,每层128个参数,dropout为0.5,实际效果往往模型2更好。
总结:
丢弃法(dropout)是通过将输出项随机置为0来控制模型复杂度
常用于多层感知机的隐藏层输出上
丢弃概率是控制模型复杂度的超参数
问题:
1.丢弃法的丢弃依据是什么?不合理的丢弃对输出结果影响很大么?
dropout可以看做一个正则项,所谓不合理的丢弃就是超参数丢弃概率没设置好,设置低了,可能过拟合,设高了,可能欠拟合,这个可以调。
丢弃概率常用值:0.5,0.1,0.9