机器学习---L1和L2正则化的区别

最新推荐文章于 2024-05-18 20:08:10 发布

slbyzdgz

最新推荐文章于 2024-05-18 20:08:10 发布

阅读量1.9k

点赞数 2

分类专栏：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27318693/article/details/90487424

版权

算法专栏收录该内容

38 篇文章 0 订阅

订阅专栏

L1正则化和L2正则化可以看成是损失函数的惩罚项，“惩罚”就是对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。

L1正则化和L2正则化说明如下：

L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为|w|1
L2正则化是指权值向量w中各个元素的平方和然后再求平方根，通常表示为|w|2

一般会在正则化项之前添加一个系数，Python中用α表示，一些文章也用λ表示。这个系数需要用户指定。

那添加L1和L2正则化有什么用？下面是L1正则化和L2正则化的作用，这些表述可以在很多文章中找到。

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择

L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合

稀疏模型与特征选择

稀疏矩阵指的是很多元素为0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小（因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

通过L1正则项来选择特征：L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验；应该是说，分别使用L1和L2拟合，如果两个特征在L2中系数相接近，在L1中一个系数为0一个不为0，那么其实这两个特征都应该保留，原因是L1对于强相关特征只会保留一个。

L1正则化和特征选择

二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此J0与L相交时使得w1或w2 等于零的机率小了许多，这就是为什么L2正则化不具有稀疏性的原因。

L2正则化和过拟合

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习---L1和L2正则化的区别

L1正则化和L2正则化可以看成是损失函数的惩罚项，“惩罚”就是对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。L1正则化和L2正则化说明如下：L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为|w|1 L2正则化是指权值向量w中各个元素的平方和然后再求平方根，通常表示为|w|2...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。