机器学习中的正则化

The_syx

于 2020-11-23 17:45:59 发布

阅读量323

点赞数

文章标签： python 机器学习深度学习算法人工智能

本文链接：https://blog.csdn.net/The_syx/article/details/110022780

版权

正则化是一种有助于避免过拟合的技术，还可以使预测模型更易于理解。

训练机器学习模型的主要方面之一是避免过度拟合。如果模型过于拟合，则模型的准确性会较低。发生这种情况是因为您的模型过于努力地捕获训练数据集中的噪声。噪声是指数据点并不能真正代表数据的真实属性，而是随机的机会。学习此类数据点，会使您的模型更加灵活，存在过度拟合的风险。

平衡偏差和方差的概念有助于理解过度拟合现象。

避免过度拟合的方法之一是使用交叉验证，这有助于估计测试集上的误差，并确定哪些参数最适合您的模型。

本文将重点介绍有助于避免过度拟合并增加模型可解释性的技术。

正则化

这是一种回归形式，可以将系数估计值约束/正则化或缩小为零。换句话说，此技术不鼓励学习更复杂或更灵活的模型，从而避免过拟合的风险。

线性回归的简单关系如下所示。在此，Y表示学习的关系，β表示不同变量或预测变量的系数估计值（X）。

Y≈β0+β1X1+β2X2+…+βpXp

拟合过程涉及损失函数，称为残差平方和或RSS。选择合适的系数（参数），以使其最小化该损耗函数。

现在，这将根据您的训练数据调整系数。如果训练数据中有噪声，则估计的系数将不能很好地推广到将来的数据。这是正则化进入的地方，并将这些学习的估计缩小或正则化为零。

岭回归（Ridge回归）

上图显示了岭回归，其中通过添加收缩量来修改RSS。现在，通过最小化该函数来估计系数。在这里，λ是调整参数，它决定了我们要惩罚模型灵活性的程度。模型灵活性的提高由其系数的增加来表示，如果我们要最小化上述函数，则这些系数需要很小。这就是Ridge回归技术防止系数升高太高的方法。另外，请注意，除了截距β0以外，我们缩小了每个变量与响应的估计关联。此截距是xi1 = xi2 =…= xip = 0时响应平均值的度量。

当λ= 0时，惩罚项无效，并且由岭回归产生的估计值将等于最小二乘。然而，当λ→∞时，收缩罚分的影响增加，并且脊回归系数估计将接近零。可以看出，选择一个好的λ值至关重要。为此，交叉验证非常方便。通过这种方法得出的系数估计值也称为L2范数。

通过标准最小二乘法产生的系数是等比例的，即，如果将每个输入乘以c，则相应的系数将被缩放为1 / c。因此，无论预测如何缩放，预测器和系数（X的乘法_Ĵ β _Ĵ）保持相同。但是，岭回归不是这种情况，因此，在执行岭回归之前，我们需要对预测变量进行标准化或将预测变量达到相同的比例。下面给出了用于执行此操作的公式。

Lasso回归

Lasso是另一个变体，其中上述功能被最小化。很明显，这种变化与岭回归仅在惩罚高系数上有所不同。它使用|βj| （模数）代替β的平方作为惩罚。在统计中，这称为L1范数。

让我们以不同的角度看一下上述方法。岭回归可以看作是求解方程，系数的平方和小于或等于s。和Lasso可以被认为是作为一个方程式，其中系数的模量的总和小于或等于s。在此，s是对于收缩率λ的每个值存在的常数。这些方程式也称为约束函数。

考虑给定问题中的两个参数。然后根据上述公式，脊回归用β1²+β2²≤s表示。这意味着对于位于β1²+β2²≤s所给定圆内的所有点，岭回归系数具有最小的RSS（损失函数）。

类似地，对于Lasso，等式变为|β1| + |β2|≤s。这意味着对于|β1| + |β2|≤s所给定的菱形内的所有点，Lasso系数具有最小的RSS（损失函数）。

下图描述了这些方程式。

上图显示了Lasso（左）和岭回归（右）的约束函数（绿色区域），以及RSS（红椭圆）的轮廓。椭圆上的点共享RSS的价值。对于非常大的s值，绿色区域将包含椭圆的中心，从而使两种回归技术的系数估计都等于最小二乘估计。但是，上图中的情况并非如此。在这种情况下，Lasso和岭回归系数估计值由椭圆与约束区域接触的第一点给出。由于岭回归具有没有尖锐点的圆形约束，因此通常不会在轴上发生此相交，因此岭回归系数估计将排他地为非零。
但是，Lasso约束在每个轴上都有拐角，因此椭圆通常会在一个轴上与约束区域相交。发生这种情况时，系数之一将等于零。在更高的维度（参数远大于2）中，许多系数估计可能同时等于零。

这揭示了岭回归的明显缺点，即模型可解释性。它将缩小最不重要的预测变量的系数，非常接近零。但这绝不会使它们完全为零。换句话说，最终模型将包括所有预测变量。但是，在Lasso的情况下，当调整参数λ足够大时，L1惩罚具有迫使一些系数估计值精确等于零的效果。因此，Lasso方法还执行变量选择，并且据说可以产生稀疏模型。

正则化实现了什么？

标准最小二乘法模型中往往会有一些差异，即，对于不同于训练数据的数据集，该模型不能很好地推广。正则化可显着减少模型的方差，而不会显着增加其偏差。因此，在上述正则化技术中使用的调整参数λ控制对偏差和方差的影响。随着λ值的增加，它减小了系数的值，从而减小了方差。到目前为止，λ的增加是有益的，因为它仅减小了方差（因此避免了过拟合），而不会丢失数据中的任何重要属性。但是在获得一定值之后，该模型开始失去重要的属性，从而导致模型产生偏差，从而导致拟合不足。因此，应仔细选择λ的值。

这是开始进行正则化所需的全部基本知识。这是一项有用的技术，可以帮助提高回归模型的准确性。Scikit-Learn是实现这些算法的流行库。它具有出色的API，只需使用几行python代码即可使您的模型运行。