来聊一聊机器学习中的数学原理——过拟合、正则化和惩罚函数

最新推荐文章于 2025-04-13 02:42:32 发布

数行天下

最新推荐文章于 2025-04-13 02:42:32 发布

阅读量1k

点赞数 16

分类专栏：人工智能文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_36092143/article/details/141175230

版权

人工智能专栏收录该内容

14 篇文章

订阅专栏

在ChatGPT模型技术原理中，我们得知研究人员还可以通过对模型进行正则化处理，例如Dropout或权重衰减，以防止模型过拟合。这些正则化技术有助于提高模型在面对新输入时的泛化能力，使其在实际应用中具有更好的鲁棒性。

那么今天跟大家聊一聊机器学习模型训练中涉及到的数学原理，过拟合、正则化和惩罚函数，来一起来理解为什么这些数学方法会对模型产生巨大的影响。

过拟合

模型只能拟合训练数据的状态被称为过拟合，英文是 overﬁtting。也就是说过拟合是指我们在训练集上的误差较小，但在测试集上的误差较大。在做回归模型的时候，过度增加函数 fθ(x)的次数会导致过拟合。过拟合不止在回归时出现，在分类时也经常发生，我们要时常留意它。

Overfitting : If we have too many features, the learned hypothesis may fit the training set vey well, but fail to generalize to new examples.

1.1 过拟合的原因

训练样本不足或缺乏代表性，没有涵盖所有数据类型。
训练数据中噪声过大。
模型过于复杂。

1.2 避免过拟合有以下方法：
正则化，包括L1正则化、L2正则化
Dropout
Batch Normalization
early stopping
data augmentation
从简单的模型开始，而不是一开始就选择比较复杂的模型。
增加训练样本。
使用bagging方法。
降维。

首先重要的是增加全部训练数据的数量，因为机器学习是从数据中学习的，所以数据非常重要，数据越丰富越多机器学习的准确度就会越高。另外，使用更简单的模型也有助于防止过拟合。

正则化

2.1 正则化的方法

以回归模型的目标损失函数为例：

我们要向这个目标函数增加下面这样的正则化项：

那么现在的E ( θ ) 就变为：

我们要对这个新的目标函数进行最小化，这种方法就称为正则化。

m 是参数的个数，不过一般来说不对 θ0 应用正则化。所以仔细看会发现 j 的取值是从 1 开始的。也就是说，假如预测函数的表达式为 fθ(x) = θ0 + θ1x + θ2x2，那么 m = 2 就意味着正则化的对象参数为 θ1 和 θ2，θ0 这种只有参数的项称为偏置项，一般不对它进行正则化。λ 是决定正则化项影响程度的正的常数。这个值需要我们自己来定。

2.2 正则化的效果

光看表达式可能不容易理解。我们结合图来想象一下吧:首先把目标函数分成两个部分。

C(θ) 是本来就有的目标函数项，R(θ) 是正则化项。C(θ) 和 R(θ) 相加之后就是新的目标函数，所以我们实际地把这两个函数的图形画出来，加起来看看。不过参数太多就画不出图来了，所以这里我们只关注 θ1。而且为了更加易懂，先不考虑 λ。

我们先从C(θ) 开始画起，不用太在意形状是否精确。以回归模型为例，这个目标函数开口向上，所以，我们假设它的形状是这样的：

从图中马上就可以看出最小值在哪里，是在θ1 = 4.5 附近。

从这个目标函数在没有正则化项时的形状来看，θ1 = 4.5 附近是最小值。接下来是 R(θ)，它就相当于(θ^2)/2所以是过原点的简单二次函数。

实际的目标函数是这两个函数之和E(θ) = C(θ) + R(θ)，我们来画一下它的图形。顺便考虑一下最小值在哪里。把 θ1 各点上的 C(θ) 和 R(θ) 的高相加，然后用线把它们相连就好：

从图中我们可以看出来最小值是 θ1 = 0.9，与加正则化项之前相比，θ1 更接近 0 了。本来是在 θ1 = 4.5 处最小，现在是在 θ1 = 0.9 处最小，的确更接近 0 了。这就是正则化的效果。它可以防止参数变得过大，有助于参数接近较小的值。虽然我们只考虑了 θ1，但其他 θj 参数的情况也是类似的。

参数的值变小，意味着该参数的影响也会相应地变小。比如，有这样的一个预测函数 fθ(x):