机器学习中的正则化

正则化是一种有助于避免过拟合的技术,还可以使预测模型更易于理解。

训练机器学习模型的主要方面之一是避免过度拟合。如果模型过于拟合,则模型的准确性会较低。发生这种情况是因为您的模型过于努力地捕获训练数据集中的噪声。噪声是指数据点并不能真正代表数据的真实属性,而是随机的机会。学习此类数据点,会使您的模型更加灵活,存在过度拟合的风险。

平衡偏差和方差的概念有助于理解过度拟合现象。

避免过度拟合的方法之一是使用交叉验证,这有助于估计测试集上的误差,并确定哪些参数最适合您的模型。

本文将重点介绍有助于避免过度拟合并增加模型可解释性的技术。

正则化

这是一种回归形式,可以将系数估计值约束/正则化或缩小为零。换句话说,此技术不鼓励学习更复杂或更灵活的模型,从而避免过拟合的风险。

线性回归的简单关系如下所示。在此,Y表示学习的关系,β表示不同变量或预测变量的系数估计值(X)。

Y≈β0+β1X1+β2X2+…+βpXp

拟合过程涉及损失函数,称为残差平方和或RSS。选择合适的系数(参数),以使其最小化该损耗函数。

现在,这将根据您的训练数据调整系数。如果训练数据中有噪声,则估计的系数将不能很好地推广到将来的数据。这是正则化进入的地方,并将这些学习的估计缩小或正则化为零。

岭回归(Ridge回归)

上图显示了岭回归,其中通过添加收缩量来修改RSS。现在,通过最小化该函数来估计系数。在这里,λ是调整参数,它决定了我们要惩罚模型灵活性的程度。模型灵活性的提高由其系数的增加来表示,如果我们要最小化上述函数,则这些系数需要很小。这就是Ridge回归技术防止系数升高太高的方法。另外,请注意,除了截距β0以外,我们缩小了每个变量与响应的估计关联。此截距是xi1 = xi2 =…= xip = 0时响应平均值的度量。

当λ= 0时,惩罚项无效,并且由岭回归产生的估计值将等于最小二乘。然而,当λ→∞时,收缩罚分的影响增加,并且脊回归系数估计将接近零。可以看出,选择一个好的λ值至关重要。为此,交叉验证非常方便。通过这种方法得出的系数估计值也称为L2范数。

通过标准最小二乘法产生的系数是等比例的,即,如果将每个输入乘以c,则相应的系数将被缩放为1 / c。因此,无论预测如何缩放,预测器和系数(X的乘法Ĵ β Ĵ)保持相同。但是,岭回归不是这种情况,因此,在执行岭回归之前,我们需要对预测变量进行标准化或将预测变量达到相同的比例。下面给出了用于执行此操作的公式。

Lasso回归

Lasso是另一个变体,其中上述功能被最小化。很明显,这种变化与岭回归仅在惩罚高系数上有所不同。它使用|βj| (模数)代替β的平方作为惩罚。在统计中,这称为L1范数

让我们以不同的角度看一下上述方法。岭回归可以看作是求解方程,系数的平方和小于或等于s。和Lasso可以被认为是作为一个方程式,其中系数的模量的总和小于或等于s。在此,s是对于收缩率λ的每个值存在的常数。这些方程式也称为约束函数。

考虑给定问题中的两个参数。然后根据上述公式,脊回归用β1²+β2²≤s表示。这意味着对于位于β1²+β2²≤s所给定圆内的所有点岭回归系数具有最小的RSS(损失函数)

类似地,对于Lasso,等式变为|β1| + |β2|≤s。这意味着对于|β1| + |β2|≤s所给定的菱形内的所有点Lasso系数具有最小的RSS(损失函数)

下图描述了这些方程式。

上图显示了Lasso(左)和岭回归(右)的约束函数(绿色区域),以及RSS(红椭圆)的轮廓。椭圆上的点共享RSS的价值。对于非常大的s值,绿色区域将包含椭圆的中心,从而使两种回归技术的系数估计都等于最小二乘估计。但是,上图中的情况并非如此。在这种情况下,Lasso和岭回归系数估计值由椭圆与约束区域接触的第一点给出。由于岭回归具有没有尖锐点的圆形约束,因此通常不会在轴上发生此相交,因此岭回归系数估计将排他地为非零。
但是,Lasso约束在每个轴上都有拐角,因此椭圆通常会在一个轴上与约束区域相交。发生这种情况时,系数之一将等于零。在更高的维度(参数远大于2)中,许多系数估计可能同时等于零。

这揭示了岭回归的明显缺点,即模型可解释性。它将缩小最不重要的预测变量的系数,非常接近零。但这绝不会使它们完全为零。换句话说,最终模型将包括所有预测变量。但是,在Lasso的情况下,当调整参数λ足够大时,L1惩罚具有迫使一些系数估计值精确等于零的效果。因此,Lasso方法还执行变量选择,并且据说可以产生稀疏模型。

正则化实现了什么?

标准最小二乘法模型中往往会有一些差异,即,对于不同于训练数据的数据集,该模型不能很好地推广。正则化可显着减少模型的方差,而不会显着增加其偏差。因此,在上述正则化技术中使用的调整参数λ控制对偏差和方差的影响。随着λ值的增加,它减小了系数的值,从而减小了方差。到目前为止,λ的增加是有益的,因为它仅减小了方差(因此避免了过拟合),而不会丢失数据中的任何重要属性。但是在获得一定值之后,该模型开始失去重要的属性,从而导致模型产生偏差,从而导致拟合不足。因此,应仔细选择λ的值。

这是开始进行正则化所需的全部基本知识。这是一项有用的技术,可以帮助提高回归模型的准确性。Scikit-Learn是实现这些算法的流行库。它具有出色的API,只需使用几行python代码即可使您的模型运行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值