线性回归中给损失函数加的正则项L1和L2

最新推荐文章于 2023-11-02 21:44:30 发布

chenXin@Euler

最新推荐文章于 2023-11-02 21:44:30 发布

阅读量3.1k

点赞数

分类专栏：概率数理统计计算机算法 AI-机器学习人工智能文章标签：线性回归

本文链接：https://blog.csdn.net/lc574260570/article/details/81951739

版权

计算机算法同时被 3 个专栏收录

27 篇文章 2 订阅

订阅专栏

人工智能

27 篇文章 5 订阅

订阅专栏

AI-机器学习

16 篇文章 1 订阅

订阅专栏

正则化（Regularization）
机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1-norm和ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。

L1正则化和L2正则化可以看做是损失函数的惩罚项。
L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为||w||1
L2正则化是指权值向量w中各个元素的平方和然后再求平方根（可以看到Ridge回归的L2正则化项有平方符号），通常表示为||w||2

一般都会在正则化项之前添加一个系数，Python中用α
表示，一些文章也用λ
表示。这个系数需要用户指定。

那添加L1和L2正则化有什么用？下面是L1正则化和L2正则化的作用，这些表述可以在很多文章中找到。

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择(lasso)
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合(岭回归)。

算法
直接求解w^=(XTX)−1Xy
(即最小二乘法,又称最小平方法)可能会遇到什么问题？
1）只有当矩阵X是满秩的时候，才可以用最小二乘法。也就是多个因变量必须是相互独立的，如果相互之间关联较强，或者样本点比较少的时候，很可能造成X
就不是满秩的，因为X−1（x的负1次方）是不可逆的。
2）计算大型逆矩阵复杂度高，在处理大规模数据的时候，耗时长。

岭回归(Ridge)
第一种，
“是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更稳定、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。”
从上面这段话我们可以看出，全面理解岭回归需要先弄清楚以下一些关键的问题（概念）：
1）什么是共线性数据？
2）方程组中方程的个数少于特征个数是不是也是类似的情况？
3）病态矩阵是什么？
4）什么是有偏估计和无偏估计？
5）为什么说放弃无偏性就可以使得模型更可靠？
6）怎么样做才能放弃无偏性，提高模型的稳定性？
2）欠定方程组的情况
第二种，
还有一种情况与共线性数据有所不同，也是岭回归适合解决的问题，在这里提一下：当样本点比较少，而特征比较多，特征个数多于样本个数，这时候输入数据的矩阵X
是非满秩的，最直白的话就是方程的个数少于未知数，也就是欠定方程组，理论上应该有无穷多解。这时候最小二乘法同样是失效的。

Lasso回归和岭回归最重要的区别是，岭回归中随着惩罚项增加时，所以项都会减小，但是仍然保持非0的状态，然而Lasso回归中，随着惩罚项的增加时，越来越多的参数会直接变为0，正是这个优势使得lasso回归容易用作特征的选择（对应参数非0项），因此lasso回归可以说能很好的保留那些具有重要意义的特征而去掉那些那些意义不大甚至毫无意义的特征（如果是超多维的稀疏矩阵，这难道不是在垃圾中寻找黄金的“掘金术”吗？），而岭回归永远不会认为一个特征是毫无意义的。

chenXin@Euler

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
线性回归中给损失函数加的正则项L1和L2

正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1-norm和ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。 L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为||w||1 L2正则化是指权值向量w中各个元素的平方和然后再...
复制链接

扫一扫