关于L1和L2正则的使用

最新推荐文章于 2023-05-25 16:21:16 发布

黑白python

最新推荐文章于 2023-05-25 16:21:16 发布

阅读量2.3k

点赞数 2

L1范数更容易产生稀疏的权重，L2范数更容易产生分散的权重，原因一般从公式角度或者几何空间角度去解释
从公式角度解释：深度学习书7.1节（202页左右）。带L1正则化的最优参数w=sign(w*) max{|w*|- a/H , 0}，其中w*代表未正则化的目标函数的最优参数，H代表海森矩阵，a是正则化系数，只要a足够大，w*就会在更大区间范围内使w变为0，而带L2正则化的最优参数w=H/(H+a)▪w*,只要w*不为0，w也不为0.
从几何空间角度解释：绿色等高线代表未施加正则化的代价函数，菱形和圆形分别代表L1和L2正则化约束，L1-ball 与L2-ball的不同就在于L1在和每个坐标轴相交的地方都有“角”出现，而目标函数的"等高线"除非位置摆得非常好，大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性。相比之下，L2-ball 就没有这样的性质，因为没有角，所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小。

简单的介绍来说：

L0: L0主要是指参数中0的个数，希望参数中的大部分元素是0，希望参数是稀疏的，但是L0有一个缺点就是难以优化，所以就引出了L1正则项。

L1: L1正则项是指向量中各个元素绝对值之和，L0正则项的最优凸近似，它比L0要更容易求解，所以在实际使用中，L1的使用要多于L0的使用。

到这里，我们大概知道了L1可以实现稀疏，但我们会想呀，为什么要稀疏？让我们的参数稀疏有什么好处呢？这里扯两点：

1）特征选择(Feature Selection)：

大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说，xi的大部分元素（也就是特征）都是和最终的输出yi没有关系或者不提供任何信息的，在最小化目标函数的时候考虑xi这些额外的特征，虽然可以获得更小的训练误差，但在预测新的样本时，这些没用的信息反而会被考虑，从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地去掉这些没有信息的特征，也就是把这些特征对应的权重置为0。

2）可解释性(Interpretability)：

另一个青睐于稀疏的理由是，模型更容易解释。例如患某种病的概率是y，然后我们收集到的数据x是1000维的，也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型：y=w1*x1+w2*x2+…+w1000*x1000+b（当然了，为了让y限定在[0,1]的范围，一般还得加个Logistic函数）。通过学习，如果最后学习到的w*就只有很少的非零元素，例如只有5个非零的wi，那么我们就有理由相信，这些对应的特征在患病分析上面提供的信息是巨大的，决策性的。也就是说，患不患这种病只和这5个因素有关，那医生就好分析多了。但如果1000个wi都非0，医生面对这1000种因素，累觉不爱。

L2: L2正则项是平时最常用的一种正则项了，为了防止过拟合现象的发生，L2（也叫权重衰弱）是一种最常用方式过拟合方法：

L2可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0。

人们普遍认为：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好

L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别的哦。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。

L2范数的好处是什么呢？

1）学习理论的角度：

从学习理论的角度来说，L2范数可以防止过拟合，提升模型的泛化能力。

2）优化计算的角度：

从优化或者数值计算的角度来说，L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题。可以让我们的优化求解变得稳定和快速。

一句话总结就是：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。L1在特征选择时候非常有用，而L2就只是一种规则化而已。

黑白python

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
关于L1和L2正则的使用

L1范数更容易产生稀疏的权重，L2范数更容易产生分散的权重，原因一般从公式角度或者几何空间角度去解释从公式角度解释：深度学习书7.1节（202页左右）。带L1正则化的最优参数w=sign(w*) max{|w*|- a/H , 0}，其中w*代表未正则化的目标函数的最优参数，H代表海森矩阵，a是正则化系数，只要a足够大，w*就会在更大区间范围内使w变为0，而带L2正则化的最优参数w=H/(H+a...
复制链接

扫一扫