偏差-方差分解(bias-variance decomposition):在理论上解释算法的泛化性能


我们可以直接做实验,拿到一个具体的精度,以及训练过程的变化曲线,观察出模型的泛化性能。

但是这样做,明显是很模糊主观的,而且也完全不知为何会表现出这样的泛化性能。

本文所说的这个分解方法就是要在理论上去分析一下,到底泛化误差由什么组成,由哪些因素影响。我个人觉得这个理论分析法的贡献是非常非常大的。

先说结论:泛化误差可分解为偏差,方差与噪声之和

在这里插入图片描述

在这里插入图片描述

即:分类器的泛化性能是由学习算法的能力,数据的充分性,以及学习任务本身的难度共同决定的。

再说推导:以回归任务为例

推导过程是很简单的,并不难,但是在在推导中,用回归会很方便,所以以回归任务为例子
在这里插入图片描述
y D y_D yD是数据集中的采样值,回归任务中,比如是1.2,但是也许其真实值y是1.25,这个是由于数据集采集过程中引入的无法避免的误差,即我们数据集中数据和真实状态的区别,这个差距越大,我们的学习算法性能再好也无法完美分类,所以这个差异刻画的是问题本身的难度,我们称之为噪声,是非常形象的。

比如,很多用传感器采集的数据,在采集过程中,不可避免地会引入噪声,使得数据集中的数据和真实数据有一定差异,这个差异就是噪声,比如采集脑电波信号EEG时,电极和电信号之间隔着一层头皮,不可避免的引入了头皮以及头皮和大脑皮层中间液体的电信号噪声。
但是后续的分类或者回归任务只能使用数据集中有噪声的数据,训练出来的模型却要用于真实数据的分类,所以当然会性能较差。

在这里插入图片描述
虽然这里多次用了期望和方差,但是真的很简单。
在这里插入图片描述
两个红框计算结果为0:

红框1= E [ f ( x ; D ) . f ˉ ( x ) − y D . f ( x ; D ) − ( f ˉ ( x ) ) 2 + f ˉ ( x ) . y D ] = E[f(x;D).\bar f(x)-y_D.f(x;D)-(\bar f(x))^2 + \bar f(x).y_D]= E[f(x;D).fˉ(x)yD.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值