L1正则化和L2正则化

最新推荐文章于 2024-06-08 16:09:48 发布

知了不知蝉鸣惊

最新推荐文章于 2024-06-08 16:09:48 发布

阅读量2.2k

点赞数 7

分类专栏：机器学习笔记文章标签：正则化

本文链接：https://blog.csdn.net/promisejia/article/details/88573824

版权

机器学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

1. L1正则化和L2正则化：

L1正则化,又称Lasso Regression，是指权值向量w中各个元素的绝对值之和
L2正则化，又称Ridge Regression，是指权值向量w中各个元素的平方和,然后再求平方根（可以看到Ridge回归的L2正则化项有平方符号）
一般都会在正则化项之前添加一个系数，来调整正则比重

2. L1正则化和L2正则化的作用:

L1正则化可以让一部分特征的系数缩小到0，所以L1适用于特征之间有关联的情况可以产生稀疏权值矩阵（很多权重为0，则一些特征被过滤掉），即产生一个稀疏模型，可以用于特征选择。L1也可以防止过拟合
L2 让所有特征的系数都缩小，但是不会减为0，它会使优化求解稳定快速。所以L2适用于特征之间没有关联的情况。
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合

3. 一些问题理解

L1正则化的稀疏作用如何理解？L2正则化为什么不会稀疏？

一个损失函数加了L1正则化，相当于给最优化问题加上一个约束，此时我们的任务变成在L1约束下求出取最小值的解。换句话说，就是最优解不仅要满足L1也要满足L，在二维图上最优解就是 J等值线和 L1的交点。

由于L1在二维图像上是位于原点的菱形，在w =0 的位置很可能和J等值线相交，故大概率使最优解中有很多w=0，从而造成稀疏。
由于L2在二维图上是一个中心位于原点的圆，因此等值线与圆相交的点，比较小概率包含某维度的w=0的点，所以L2不是稀疏的

L2正则化为何可以防止过拟合？L1正则化在哪种情况下可以防止过拟合？

拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』。

当给损失函数没有加正则化时，梯度更新公式为： $w: w - a * 2X^T(Xw-y)$ ,当加上L2正则化后，梯度更新公式为： $2X^T(Xw-y) -2\lambda \alpha w$ ,更新公式会在第一项给w添加一个小于1的因子，使得w往小的方向移动，这样可以防止过拟合.
L1正则化要能防止过拟合只需，将控制正则的超参数调小一点，这样菱形很小，等值线J与其交点就小，则可以防止过拟合。
参考：机器学习中正则化项L1和L2的直观理解