Dropout是在前向传播时,让某个神经元以一定概率p停止工作,可以加强模型的泛化能力,不依赖某些局部特征,解决过拟合问题:取平均的作用、减少神经元之间复杂的共适应关系、Dropout类似于性别在生物进化中的角色。
为了保证训练和预测过程一致。经过上面屏蔽掉某些神经元,使其激活值为0以后,我们还需要对向量y1……y1000进行缩放,也就是乘以1/(1-p)。如果你在训练的时候,经过置0后,没有对y1……y1000进行缩放(rescale),那么在测试的时候,就需要对权重进行缩放(缩小p)。10个人拉一个10吨车,第一次(训练时),只有5个人出力(有p=0.5的人被dropout了),那么这5个人每个人出力拉2吨(扩大1/1-p)。第二次(预测时),10个人都被要求出力,这次每个人出的力就是2*(1-0.5)(缩小p)=1吨了
如何解决过拟合问题?L1、L2正则化及Dropout正则化讲解_哔哩哔哩_bilibili
减少参数的大小范围,从而减少参数复杂度。
w只是一个上下偏移量。
L1:保证菱形面积、原曲线面积最小,发现切点在坐标轴上,所以会有很多的稀疏解。
L2:保证圆形面积、原曲线面积最小,发现切点在靠近坐标轴,所以解会比较圆滑,靠近0。