复制粘贴的 https://www.cnblogs.com/xz824/p/10066685.html
权重衰减等价于L2范数正则化。正则化通过为模型损失函数添加惩罚项使得学习的模型参数值较小,是常用防止过拟合的常用手段
L2范数正则化是在模型原损失函数基础上添加L2范数惩罚项,其中L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。比如,对于线性回归损失函数:
weight decay是放在正则项(regularization)前面的一个系数
其中w1,w2w1,w2为权重参数,样本数为n, 将权重参数用向量w=[w1,w2]w=[w1,w2]表示,带有L2范数惩罚项的新的损失函数为
上式中L2范数的∥w∥2‖w‖2展开后得到 w21+w22w12+w22
有的时候训练模型,sum_loss总是在一个范围波动,并且很大,regularization loss从一个大值下降,很有可能是设置的weight_decay太大 ,尝试加几个零。