l1正则化表达式_L1正则化和L2正则化的区别

最新推荐文章于 2024-07-11 09:21:08 发布

weixin_39534100

最新推荐文章于 2024-07-11 09:21:08 发布

阅读量150

点赞数

文章标签： l1正则化表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39534100/article/details/112441969

版权

正则化是机器学习中防止过拟合的重要手段，通过引入正则项对模型参数进行约束。L1正则化倾向于产生稀疏权重矩阵，使部分特征权重为零，而L2正则化则会使所有特征权重接近于零但不为零。正则化结合结构风险最小化原则，在减少训练误差的同时提升模型的泛化能力。

摘要由CSDN通过智能技术生成

首先我们看一下在机器学习中的损失函数

上述公式中的第二项就是正则项

我们为什么要使用正则化？

我们对梯度下降的式子进行推导一下：

故： θj:=θj−[1m∑i=1n(hθ(x(i))−y(i))2+2λθj]

由上可以看出，当正则项系数 λ 很大时，对参数的惩罚也将很大，导致在梯度更新后对应的 θj 值很小。由此可以使得对某些参数最终接近于 0 。而正则项系数 λ 即为模型复杂度的惩罚项，当其很大时，模型复杂度将变小，也就是模型将更为简单，不会使得对数据过于拟合。

从结构风险最小化角度来说，就是在经验风险最小化的基础上（即训练误差最小化），尽可能采用简单的模型，以此提高泛化预测精度。

使用正则化，我们通常用L1正则化和L2正则化，那么它们有什么区别呢？

L1是模型各个参数的绝对值之和。

L2是模型各个参数的平方和的开方值。

L1会趋向于产生少量的特征，而其他的特征都是零，因为最优的参数值很大概率出现在坐标轴上，这样就会导致某一维的权重为零，产生稀疏权重矩阵。

L2会选择更多的特征，这些特征都会接近于零，最优的参数值很小概率出现在坐标轴上，因此每一维的参数都不会是零，当最小化‖w‖时，就会使每一项趋近于零。

weixin_39534100

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。