weight_decay 与L2 Loss

最新推荐文章于 2023-12-16 22:52:54 发布

颐水风华

最新推荐文章于 2023-12-16 22:52:54 发布

阅读量2.5k

点赞数

分类专栏：特征提取网络

特征提取网络专栏收录该内容

21 篇文章 17 订阅

订阅专栏

复制粘贴的 https://www.cnblogs.com/xz824/p/10066685.html

权重衰减等价于L2范数正则化。正则化通过为模型损失函数添加惩罚项使得学习的模型参数值较小，是常用防止过拟合的常用手段
L2范数正则化是在模型原损失函数基础上添加L2范数惩罚项，其中L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。比如，对于线性回归损失函数：

weight decay是放在正则项（regularization）前面的一个系数

其中w1,w2w1,w2为权重参数，样本数为n, 将权重参数用向量w=[w1,w2]w=[w1,w2]表示，带有L2范数惩罚项的新的损失函数为

上式中L2范数的∥w∥2‖w‖2展开后得到 w21+w22w12+w22

有的时候训练模型，sum_loss总是在一个范围波动，并且很大，regularization loss从一个大值下降，很有可能是设置的weight_decay太大，尝试加几个零。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
weight_decay 与L2 Loss

复制粘贴的https://www.cnblogs.com/xz824/p/10066685.html权重衰减等价于L2范数正则化。正则化通过为模型损失函数添加惩罚项使得学习的模型参数值较小，是常用防止过拟合的常用手段L2范数正则化是在模型原损失函数基础上添加L2范数惩罚项，其中L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。比如，对于线性回归损失函数：weight...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。