正则化精讲-CSDN博客

本文来自对下面这篇文章的翻译：
　　https://medium.com/datadriveninvestor/l1-l2-regularization-7f1b4fe948f2
　　正则化的宏观概念就是你对你模型做的任何事情，也就是种种所谓的惩罚，主要目的是为了减轻模型的复杂度，而不是去试图拟合数据。
一、为什么我们需要正则化?
　　在训练数据时，随着特征种类和数量的增加，我们的模型变得越来越复杂，在学习数据模式的同时也学习了很多噪声的特征。这导致我们的模型能很好的适应训练集，但却很难适应测试集，泛化能力较差，这就是一种过拟合的现象。我们的目标是学习数据模式，忽略数据集中的噪声特征。

如何解决过拟合问题?

正则化
交叉验证
减少特征数量

二、什么是正则化？
　　正则化是一种降低模型复杂度的方法。它通过惩罚损失函数来实现这一点。这有助于解决过拟合问题。正则化的原理是假设较小的权值生成更简单的模型，从而有助于避免过度拟合。

让我们来了解一下惩罚损失函数如何帮助简化模型
　损失函数可以表示为实际值与预测值之差的平方和：
　　在这里插入图片描述
　　随着输入特征的增加，模型变得复杂，并试图适应所有数据点，如下所示：

　　惩罚权重theta３和theta４，让它们变得很小,甚至非常接近于零。使这些项可以忽略，这并有助于简化模型。
　
如果输入变量对输出有影响怎么办?
　　为了确保我们考虑了输入变量，我们将所有的权重都设置为小。这也使得模型更简单，不容易过度拟合。
在这里插入图片描述
　　我们将正则化项添加到实际值与预测值之差的平方和中。正则化项使权值较小，使模型更简单，避免了过度拟合。
λ称为惩罚项或正则化参数，它决定了惩罚的权重。

当λ为0时，我们回到原来的损失函数。
当λ很大时,我们惩罚权重并使它们接近于零。这将得到一个非常简单的模型，具有高偏差或拟合不足。

三、那么我们应该怎样去确定一个正确的λ值呢？
　　它在0和一个大值之间。我们需要找到一个最优值λ以使得泛化误差很小。一个简单的方法是尝试不同的λ值的子样品数据,了解变化的损失函数,然后使用它在整个数据集。

四、什么是L1和L2正则化?
L1正则化（或Lasso或L1范数）
　在L1范数中，我们把某些权值参数缩小到零。当输入特征的权值接近于零时，就会导致L1范数稀疏。在稀疏解中，大多数输入特征的权值为零，很少有特征的权值非零。并不是所有的输入特征对预测都有相同的影响。对预测没有显著影响的，L1正则化将其权重参数直接赋为0。
　　L1正则化是在进行特征选择。它将一些无关紧要的输入特征直接给权值为0，对于有用特征赋予非零权值。
　　在这里插入图片描述
　　在L1正则化中，我们惩罚权值的绝对值。L1正则化项如上述公式的红色框中所示。Lasso生成了一个简单的、可解释的、包含输入特性子集的模型。
　　
　　在L2正则化中，正则化项是所有特征权值的平方和，如上式所示。L2正则化使权值很小，但不使它们为零，也不做非稀疏解。L2对异常值不具有鲁棒性，因为平方项会放大异常值的误差差异，而正则化项试图通过惩罚权重来修正异常值。当所有输入特征都影响输出，且所有权值大致相同时，岭回归的性能更好。
　　
五、L1正则化与L2正则化之间的不同？
　　L1正则化：
　　　1) 惩罚权值绝对值之和
　　　2) 稀疏解
　　　3) 多解
　　　4) 特征选择
　　　5) 对异常值具有鲁棒性
　　　6) 生成简单且可解释但不能学习复杂模式的模型
　　L2正则化：
　　　1) 惩罚权值的平方之和
　　　2) 非稀疏解
　　　3) 单一解
　　　4) 无特征选择
　　　5) 对异常值不具鲁棒性
　　　6) 当输出变量是所有输入特性的函数时，给出了更好的预测
　　　7) 能够学习复杂的数据模式

六、为什么L1正则化多解而L2正则化单一解
　　1.先来看L1正则化
　　在这里插入图片描述
　　L1正则化=λ|θ|，当λ|θ|≤C时。C是一个正常数值。
　　我们可以写为λθ-C = 0。这个方程可以有多个解,我们有不同的权值θ,去满足这个方程。这也有助于特征选择，某些不影响目标变量的输入特征的权重将为零或接近零。
　　2.再来看L2正则化
　　在这里插入图片描述
　　L2正则化=λ|θ|²,当λ|θ|²≤C²时。C是一个正常数。
　　我们可以写为λθ²- c²= 0。这个方程是一个二次方程，只能有一个解。正如我们判别等于零的二次方程我们可以为θ只有一个解。这是因为L2正则化没有特征选择，包含了所有特征，θ值是一个非零整数，所以这个方程只有一个解。
　　当我们有具有相关性的输入特征时，我们用L2正则化，就像房价取决于房子的面积和房间数量。在这样的场景下，θ值是一个非零整数。因此L2没有特征选择，具有非稀疏解。

L1、L2正则化