深度学习之L1和L2正则化，为什么L1正则化更容易导致稀疏？

陈壮实的搬砖生活

已于 2024-06-12 10:11:03 修改

阅读量591

点赞数 11

分类专栏：算法文章标签：算法面试职场和发展 L1 L2 正则化模型稀疏

于 2024-05-11 11:14:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41915623/article/details/138707091

版权

算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本人今年参加了很多面试，也有幸拿到了一些大厂的offer，整理了众多面试资料，后续还会分享众多面试资料。
整理成了面试系列，由于时间有限，每天整理一点，后续会陆续分享出来，感兴趣的朋友可关注+收藏

同时，也欢迎查看开发面试经验合集：
Java、Android面试高频系列文章合集

文章目录

- 1. L1和L2正则化
- 2. 为什么L1正则化会导致稀疏呢？

1. L1和L2正则化

这篇讲得非常好：https://zhuanlan.zhihu.com/p/376000306
两者是用来控制模型复杂度和防止过拟合的常见手段，其公式如下：
在这里插入图片描述
其中L1正则化是加上参数的绝对值的和，而L2正则化是加上参数的平方和。

（1）L1正则化
L1正则化通过向损失函数添加参数的绝对值之和来惩罚模型的复杂度。L1正则化倾向于使一些参数变为0，从而可以用于特征选择，即自动减少不重要的特征。这使得模型更具稀疏性，有助于降低特征维度和模型复杂度。

（2）L2正则化
L2正则化通过向损失函数添加参数的平方之和来惩罚模型的复杂度。与L1正则化不同，L2正则化不会强制使参数变为零，但会让参数逐渐趋近于零。L2正则化会使各参数相对更加平滑，提高模型的稳定性。

2. 为什么L1正则化会导致稀疏呢？

对公式求导，就可以看0附近的导数是否导致0是其邻域内的极值点，如下所示：
在这里插入图片描述

上面的推导表明，对于L1，0的邻域内，存在某种条件，使得导数先负后正，即函数先减后增，所以0是极值点。而条件是：原损失函数J在某参数为0处的导数在(−a/n,a/n)范围内。这个条件，说直白一点就是有没有某特征对损失函数影响不大。

而L2在0处的导数，就等于J在0处的导数。只有当原始优化问题的最优解本身就是稀疏解的时候，才会使得该参数为0，而这个显然不常见。

基于此当极值点是wi=0时，在反向传播时就会更倾向于将将wi优化至0.

陈壮实的搬砖生活

关注

11
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。