来聊一聊机器学习中的数学原理——过拟合、正则化和惩罚函数

在ChatGPT模型技术原理中,我们得知研究人员还可以通过对模型进行正则化处理,例如Dropout或权重衰减,以防止模型过拟合。这些正则化技术有助于提高模型在面对新输入时的泛化能力,使其在实际应用中具有更好的鲁棒性。

那么今天跟大家聊一聊机器学习模型训练中涉及到的数学原理,过拟合、正则化和惩罚函数,来一起来理解为什么这些数学方法会对模型产生巨大的影响。

 目录

  • 一、过拟合

  • 二、正则化

  • 2.1 正则化的方法

  • 2.2 正则化的效果

  • 三、惩罚函数 

 过拟合

模型只能拟合训练数据的状态被称为过拟合,英文是 overfitting。也就是说过拟合是指我们在训练集上的误差较小,但在测试集上的误差较大。在做回归模型的时候,过度增加函数 fθ(x)的次数会导致过拟合。过拟合不止在回归时出现,在分类时也经常发生,我们要时常留意它。

Overfitting : If we have too many features, the learned hypothesis may fit the training set vey well, but fail to generalize to new examples.

图片

1.1 过拟合的原因

  • 训练样本不足或缺乏代表性,没有涵盖所有数据类型。

  • 训练数据中噪声过大。

  • 模型过于复杂。

    1.2 避免过拟合有以下方法:

  • 正则化,包括L1正则化、L2正则化

  • Dropout

  • Batch Normalization

  • early stopping

  • data augmentation

  • 从简单的模型开始,而不是一开始就选择比较复杂的模型。

  • 增加训练样本。

  • 使用bagging方法。

  • 降维。

    首先重要的是增加全部训练数据的数量,因为机器学习是从数据中学习的,所以数据非常重要,数据越丰富越多机器学习的准确度就会越高。另外,使用更简单的模型也有助于防止过拟合。

 正则化

  • 2.1 正则化的方法

以回归模型的目标损失函数为例:

图片

我们要向这个目标函数增加下面这样的正则化项

图片

那么现在的E ( θ ) 就变为:

图片

我们要对这个新的目标函数进行最小化,这种方法就称为正则化

m 是参数的个数,不过一般来说不对 θ0 应用正则化。所以仔细看会发现 j 的取值是从 1 开始的。也就是说,假如预测函数的表达式为 fθ(x) = θ0 + θ1x + θ2x2,那么 m = 2 就意味着正则化的对象参数为 θ1 和 θ2,θ0 这种只有参数的项称为偏置项一般不对它进行正则化。λ 是决定正则化项影响程度的正的常数。这个值需要我们自己来定。

2.2 正则化的效果

光看表达式可能不容易理解。我们结合图来想象一下吧:首先把目标函数分成两个部分。

图片

C(θ) 是本来就有的目标函数项,R(θ) 是正则化项C(θ) 和 R(θ) 相加之后就是新的目标函数,所以我们实际地把这两个函数的图形画出来,加起来看看。不过参数太多就画不出图来了,所以这里我们只关注 θ1。而且为了更加易懂,先不考虑 λ。

我们先从C(θ) 开始画起,不用太在意形状是否精确。以回归模型为例,这个目标函数开口向上,所以,我们假设它的形状是这样的:

图片

从图中马上就可以看出最小值在哪里,是在θ1 = 4.5 附近。

图片

从这个目标函数在没有正则化项时的形状来看,θ1 = 4.5 附近是最小值。接下来是 R(θ),它就相当于(θ^2)/2所以是过原点的简单二次函数。

图片

实际的目标函数是这两个函数之和E(θ) = C(θ) + R(θ),我们来画一下它的图形。顺便考虑一下最小值在哪里。把 θ1 各点上的 C(θ) 和 R(θ) 的高相加,然后用线把它们相连就好:

图片

从图中我们可以看出来最小值是 θ1 = 0.9,与加正则化项之前相比,θ1 更接近 0 了。本来是在 θ1 = 4.5 处最小,现在是在 θ1 = 0.9 处最小,的确更接近 0 了。这就是正则化的效果。它可以防止参数变得过大,有助于参数接近较小的值。虽然我们只考虑了 θ1,但其他 θj 参数的情况也是类似的

参数的值变小,意味着该参数的影响也会相应地变小。比如,有这样的一个预测函数 fθ(x):

图片

极端一点,假设 θ2 = 0,这个表达式就从二次变为一次了,这就意味着本来是曲线的预测函数变为直线了:

图片

这正是通过减小不需要的参数的影响,将复杂模型替换为简单模型来防止过拟合的方式。

以上例子为L2正则化方法,它是对参数的约束,能够使得参数变得小一点,这样对模型起的作用就小。使用L2正则化的时候,求导之后做梯度下降,参数的变化可以看成每次在原来的基础上乘一个小于1的因子,这样可以理解为L2正则化让参数衰减,所以L2正则化又叫权重衰减(Weight Decay)。

L1正则化方法:

假设有如下带L1正则化的损失函数

图片

图片

L1正则化

图片

 惩罚函数

为了防止参数的影响过大,在训练时要对参数施加一些惩罚。比如上面提到的 λ,可以控制正则化惩罚的强度。

图片

比如令 λ = 0,那就相当于不使用正则化

图片

λ 越大,正则化的惩罚也就越严厉:

图片

日拱一卒无有尽,功不唐捐终入海

觉得不错,点赞和点个“在看”然后转发出去

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值