手推公式带你轻松理解L1/L2正则化

最新推荐文章于 2024-04-19 08:35:09 发布

雷恩Layne

最新推荐文章于 2024-04-19 08:35:09 发布

阅读量2.8k

点赞数 12

分类专栏：机器学习&深度学习文章标签：正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37555071/article/details/107566999

版权

本文详细介绍了L1/L2正则化的概念，旨在帮助理解其防止过拟合的作用。通过数学和几何角度解析，揭示了L1产生稀疏效果，L2实现平滑的原理。并讨论了两种正则化的应用场景，L1适用于特征选择，L2在实际操作中更为常见。

摘要由CSDN通过智能技术生成

文章目录

前言

L1/L2正则化的目的是为了解决过拟合，因此我们先要明白什么是过拟合、欠拟合。

过拟合：训练出的模型在测试集上Loss很小，在训练集上Loss较大
欠拟合：训练出的模型在测试集上Loss很大，在训练集上Loss也很大
拟合：训练的刚刚好，在测试集上Loss很小，在训练集上Loss也很小

现在，让我们开启L1/L2正则化正则化之旅吧！

L1/L2正则化原理

L1与L2正则是通过在损失函数中增加一项对网络参数的约束，使得参数渐渐变小，模型趋于简单，以防止过拟合。

损失函数Loss：
在这里插入图片描述
上述Loss，MSE均方误差的Loss

L1正则化的损失函数：
在这里插入图片描述
W代表网络中的参数，超参数λ需要人为指定。需要注意的是，L1使用绝对值来约束参数

L2正则化的损失函数：
在这里插入图片描述
相比于L1正则化，L2正则化则使用了平方函数来约束网络参数

需要注意的是，在有的文献中，把L2正则项定义为权值向量w中各个元素的平方和然后再求平方根，其实，L2正则加不加平方根影响不大，原理都是一样的，但不加平方根更容易数学公式推导

我们知道，当W的值比较大时(即W的值距离0很远，取几百甚至几千的值)，则拟合的曲线比较陡，x稍微一变化，y的影响就比较大，如下图所示：
在这里插入图片描述
可以看到，你的模型复杂度越大，拟合的曲线就越陡，惩罚项W就越大，在这种情况容易出现过拟合，所以要避免W出现比较大的值，一个有效的方法是给loss加上一个与W本身有关的值，即L1正则项或L2正则项，这样，我们在使用梯度下降法让Loss趋近于0的时候，也必须让W越来越小，W值越小，模型拟合的曲线会越平缓，从而防止过拟合。也可以从奥卡姆剃刀原理的角度去解释，即在所有可以选择的模型中，能够很好拟合当前数据，同时又十分简单的模型才是最好的。

L1与L2正则化让W变小的原理是不同的：

L1能产生等于0的权值，即能够剔除某些特征在模型中的作用（特征选择），即产生稀疏的效果。
L2可以得迅速得到比较小的权值，但是难以收敛到0，所以产生的不是稀疏而是平滑的效果。

下面，从两个角度理解L1/L2正则化这两个结论

从数学的角度理解L1/L2正则化

我们来看看L1正则化的损失函数的求导及梯度更新公式：

在这里插入图片描述
lr是学习率(更新速率)，上述求导是Loss或 $Loss_l1$

最低0.47元/天解锁文章

关注

12
点赞
踩
35

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

雷恩Layne 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。