应对过拟合问题方法: 权重衰减(weight decay)
1. 方法:
权重衰减等价于L2范数正则化(regularization)。
正则化通过为模型损失函数添加惩罚项是血出的模型参数值较小,是应对过拟合常用手段。
损失函数: l(w1,w2,b)
L2范数正则化在模型原损失函数机基础上添加L2范数惩罚项,从而得到训练所需要最小化的函数。
L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积(如 λ/(2n)*||w||^2)
超参数λ>0,当权重参数均为0是,惩罚项最小。当λ较大时,惩罚项在损失函数中占比较大,这通常会使学习得到的
权重参数的元素较接近于0. 上式中||w||^2展开后得到 w1^2+w2^2
再有了L2范数惩罚项后,小批量随机梯度下降算法中,w1,w2的迭代方式也会被相应更改
更改后变为 (https://wwww.bookstack.cn/read/Drive-into-DL-PyTorch/d2e15a71e6353779.md) 在这个网址上看
所以才有λ越大,模型权重参数越小的改变
L2范数正则化先令权重w1,w2自乘小于1的数,再减去不含惩罚项的梯度。因此,又叫做权重衰退
权重衰退通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制
L1正则化:又称Lasso Regression,是指权值向量w中各个元素的绝对值之和。
比如:向量A=[1,-1,3], 那么A的L1范数为 |1|+|-1|+|3|。
L1正则化可以让一部分特征的系数缩小到0,所以L1适用于特征之间有关联的情况可以产生稀疏权值矩阵
(很多权重为0,则一些特征被过滤掉),即产生一个稀疏模型,可以用于特征选择。
L2正则化:指权值向量中各个元素的平方和然后再求平方根,对参数进行二次约束,参数w变小,但不为零,不会形成稀疏解 。
权重w尽可能地小,从而将权重约束在一定范围内,减小模型复杂度;同时,如果将w约束在一定范围内,也能够有效防止梯度爆炸。
李沐深度学习-权重衰退文档
最新推荐文章于 2024-07-21 07:50:37 发布