[机器学习必知必会]泛化误差率的偏差-方差分解

一、期望泛化误差的偏差-方差分解

偏差-方差分解试图对机器学习算法的期望泛化误差率进行拆解。

\boldsymbol{x}为测试样本,f(\mathbf{x};D)为训练集D上学习得到的模型f\mathbf{x}上的预测输出,y_D\boldsymbol{x}在数据集中的标记,y\boldsymbol{x}的真实标记。

对算法的期望泛化误差进行分解:

得到:

E(f;D)=bias^{2}(\boldsymbol{x})+var(\boldsymbol{x})+\varepsilon ^2

即泛化误差可分解为偏差、方差与噪声之和。其中偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。偏差-方差分解说明,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度共同决定的。

 

二、偏差-方差窘境(bias-variance dilemma)

给定学习任务,如果我们能控制学习算法的训练程度,则在训练程度不足的时候,学习器的拟合能力不够,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度的加深,学习器的拟合能力逐渐加强,训练数据的扰动渐渐能被学习器学到,方差逐渐住到了泛化错误率;在训练程度充足后,学习器的拟合能力已经非常强,训练数据的轻微扰动都能导致学习器的显著变化。若训练数据自身的,非全局的特性被学习器学到了,则将发生过拟合。

泛化误差与偏差、方差的关系示意图如下所示:

 

 

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值