偏差-方差均衡

在回归问题中,如曲线拟合问题,样本(x,t),对于每个输入x,对t值进行估计为y(x)。假设这样做,造成了一个损失 L(t,y(x))。平均损失就是

一个常用的损失函数是平方损失这种情况下,平均损失函数可以写成 平均损失函数对y(x)求导,并让导数等于0,求得y(x)。

这是在x的条件下t的条件均值,称为回归函数。在这种情况下,最优解是条件均值。我么可以把平方项按照下面的方式展开:

最后的到下面式子:

在回归的模型中,使用有限的数据集来训练模型,有最大似然方法或者最小二乘法,都会导致严重的过拟合问题。虽然可以通过引入正则化项可以控制多个参数的模型的过拟合问题,但又产生了新的问题,即如何确定正则化系数的合适值。,但是当我们使用贝叶斯方法对参数进行求和或积分,过拟合现象不会出现,这里暂时不做讨论。从频率学家的观点考虑一下模型的复杂度问题很有指导意义。这种频率学家的观点称为偏差-方差权衡。下面在线性基函数模型中介绍这个概念。上面讨论回归问题时,一旦我们知道了条件概率分布p(t|x),使用最多的一个选择平方损失函数,此时最优的预测由条件期望h(x)给出,即:h(x)=E(t|x). 由上面的推导,平方损失函数的期望可以写成:

-------(1)

第二项与y(x)无关,是由数据本身的噪声造成的。第一项与我们对函数y(x)的选择有关,我们要找一个y(x)的解,使得第一项最小。由于是非负的,所以最小值等于0,如果我们有无限多的数据,原则上我们可以以任意的精度寻找回归函数h(x),这会给出y(x)的最优解,但是,实际应用中,我们的数据集D只有有限的N个数据,我们不能精确的知道回归函数。频率学家的方法,假设我们有许多的数据集,每个数据集的大小为N,并且每个数据集都是独立同分布的从分布p(x,t)中抽取。对于任意的数据集D,我们运行我们的学习算法,得到一个预测函数y(x;D)。不同的数据集会给出不同的函数,从而给出不同的平方损失的值,这样,特定的学习算法的表现就通过取各个数据集上的表现的平均值来进行评估。

考虑上述公式(1)的第一项被积函数,对于一个特定的数据集D,它的形式为:

由于这个量与特定的数据D有关,因此我们对所有数据集取平均。在括号中加上然后减去 ,然后展开,我们有

现在对D求期望,注意最后一项的期望为0,可得

我们看到,y(x;D)与回归函数h(x)的差的平方的期望可以表示为两项的和,第一项称为平方偏置,表示所有数据集的平均预测与预期的回归函数之间的差异。第二项,称为方差,度量了对于单独的数据集、模型所给出的解在平均值附近波动的情况。 可得,偏差反应的是模型根据样本的输出与真实值得误差,即为模型本身的准确度。方差反应的是模型的每一次输出结果与模型输出期望之间的误差,即模型的稳定性。

在这里最优的预测h(x)即表示为真实值。

下面是知乎上的解释

由此,当模型越简单,此时偏差较大,称为欠拟合。当模型越复杂时,偏差较小,但是方差又会随复杂度的升高而增大,此时,称为过拟合。  

当方差和偏差加起来最优的点,就是我们最佳的模型复杂度。  

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值