权重衰减
权重衰减等价于L2正则化。
正则化是通过在模型损失函数上添加正则项,约束所学到的参数,使其接近于0。
如上图所示,由红到绿,增加了泛化能力。
L2正则化在损失函数后新增一个正则化项
其中w1,w2是权重参数,b是偏差参数,样本数为n。将权重参数用向量w=[w1,w2]表示
经过小批量梯度下降后,参数变化情况
权重衰减可以通过优化器中的weight_decay
超参数来指定
丢弃法
规定概率p,对隐藏层中的所有单元,以概率p清零选定的隐藏单元,反向传播时,被清零的隐藏单元梯度为0,并对其他单元除以1-p作拉伸。通过拉伸使得期望不变。
通过丢弃法,可以防止隐藏层过于依赖某个单元。
例如规定概率p = 40% 隐藏层中有5个隐藏单元,其中h2,h5被清零,可以防止对h2,h5的过度依赖,达到正则化的目的,防止过拟合。
实际训练时,每训练一个batch,都要使用一次丢弃法。
在测试时,不会使用丢弃法,使用model.eval(),和model.train()区分测试和训练。