正则化的作用以及L1和L2正则化的区别

最新推荐文章于 2025-04-07 15:52:57 发布

Lavi_qq_2910138025

最新推荐文章于 2025-04-07 15:52:57 发布

阅读量3.8w

点赞数 108

分类专栏：机器学习文章标签：机器学习正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuweiyuxiang/article/details/99984288

版权

0 正则化的作用

正则化的主要作用是防止过拟合，对模型添加正则化项可以限制模型的复杂度，使得模型在复杂度和性能达到平衡。
常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。 L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归。但是使用正则化来防止过拟合的原理是什么？L1和L2正则化有什么区别呢？

1 L1正则化与L2正则化

L1正则化的表达如下，其中 $\alpha||w||_1$ 为L1正则化项,L1正则化是指权值向量w 中各个元素的绝对值之和。
在这里插入图片描述
L2正则化项表达式如下，其中 $\alpha||w||_2^2$ 为L2正则化项，L2正则化是指权值向量w 中各个元素的平方和然后再求平方根。

L1和L2正则化的作用：

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择，一定程度上，L1也可以防止过拟合
L2正则化可以防止模型过拟合（overfitting）

下面看李飞飞在CS2312中给的更为详细的解释：

L2正则化可以直观理解为它对于大数值的权重向量进行严厉惩罚，倾向于更加分散的权重向量。由于输入和权重之间的乘法操作，这样就有了一个优良的特性：使网络更倾向于使用所有输入特征，而不是严重依赖输入特征中某些小部分特征。 L2惩罚倾向于更小更分散的权重向量，这就会鼓励分类器最终将所有维度上的特征都用起来，而不是强烈依赖其中少数几个维度。。这样做可以提高模型的泛化能力，降低过拟合的风险。
L1正则化有一个有趣的性质，它会让权重向量在最优化的过程中变得稀疏（即非常接近0）。也就是说，使用L1正则化的神经元最后使用的是它们最重要的输入数据的稀疏子集，同时对于噪音输入则几乎是不变的了。相较L1正则化，L2正则化中的权重向量大多是分散的小数字。
在实践中，如果不是特别关注某些明确的特征选择，一般说来L2正则化都会比L1正则化效果好。

2 L1和L2正则化的原理

上面讲到L1倾向于学得稀疏的权重矩阵，L2倾向于学得更小更分散的权重？但是L1和L2是怎样起到这样的作用的呢？背后的数学原理是什么呢？
模型的学习优化的目标是最小化损失函数，学习的结果是模型参数。在原始目标函数的基础上添加正则化相当于，在参数原始的解空间添加了额外的约束。
L1正则化对解空间添加的约束是：

最低0.47元/天解锁文章

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。