3.2 偏置-方差分解

翻译 2016年05月30日 22:55:22

3.2、偏置-方差分解

平方损失函数的最优预测为:

h(x)=E(tx)=tp(tx)dt

期望为:
E(L)={y(x)h(x)}2p(x)dx+{h(x)t}2p(x,t)dxdt

第二项与 y(x) 无关,是由数据本身的噪声造成的。

对于回归模型复杂度的评估,贝叶斯学家和频率学家采用两种不同的思维。频率学家执着于对数据集的点估计,他们假设有许多独立同分布的数据集,对于每一个数据集,回归模型都会给出预测的结果,那么模型的表现就可以通过取各数据集上预测结果的平均表现。

对于特定的数据集D,对第一项进行分解:

{y(x;D)h(x)}2={y(x;D)ED(x;D)+ED(x;D)h(x)}2={y(x;D)h(x)}2={y(x;D)ED(x;D)}2+{ED(x;D)h(x)}2+2{y(x;D)ED(x;D)}{ED(x;D)h(x)}

我们现在关于D求期望,然后注意到最后⼀项等于零,可得:
ED({y(x;D)h(x)}2)={ED(y(x;D))h(x)}2+ED({y(x;D)ED(y(x;D))}2)

第⼀项,被称为平⽅偏置(bias),表⽰所有数据集的平均预测与预期的回归函数之间的差异。第⼆项,被称为⽅差(variance),度量了对于单独的数据集,模型所给出的解在平均值附近波动的情况,因此也就度量了函数y(s;D)对于特定的数据集的选择的敏感程度。

=2++

⼩的λ使得模型对于各个数据集⾥的噪声的拟合效果⾮常好,导致了较⼤的⽅差,相反,⼤的λ把权值参数拉向零,导致了较⼤的偏置。
偏置大的称为欠拟合,方差大的称为过拟合。

偏置-方差分解是频率学家分析模型的一种方法,但这种方法有着一定的缺陷。因为这种评估方法的基础是对所有数据集取平均,然而在现实生活中我们只会有一个数据集,如果强行将数据集拆成多个,只会降低结果的准确性。

相关文章推荐

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

关于偏置-方差分解

偏置-方差分解(Bias-Variance Decomposition)是统计学派看待模型复杂度的观点。Bias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模,它可以...
  • guiiu
  • guiiu
  • 2017年02月16日 23:19
  • 710

偏差方差分解

偏差方差分解——Bias-Variance Decomposition: expected loss = bias2 + variance + noise   :the prediction f...

偏置-方差分解(Bias-Variance Decomposition)

本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处。   机器学习的目标是学得一个泛化能力比较好的模...

组合模型

组合模型 委员会(PRML 14.2) 构建⼀个委员会的最简单的⽅法是对⼀组独⽴的模型的预测取平均。这样的⽅法的动机可以从频率学家的观点看出来。这种观点考虑偏置和⽅差之间的折中,它将模型的误差...

偏置方差分解推导

  • 2016年02月05日 18:08
  • 31KB
  • 下载

误差error,偏置bias,方差variance的见解

不知怎么的,想到了这三个名词之间的关系,特地去查了一下,貌似学问还挺大。 以下纯属查阅资料,自己的理解,如有错误,谢谢下方评论纠正 ^_^ 主要参考资料:知乎上关于这三个名词的讨论,以及周志华的《机器...

方差-偏置分析

机器学习的目标是学得一个泛化能力比较好的模型。所谓泛化能力,是指根据训练数据训练出来的模型在新的数据上的性能。这就牵扯到机器学习中两个非常重要的概念:欠拟合和过拟合。如果一个模型在训练数据上表现非常好...

Pauli 协方差分解

  • 2013年08月18日 17:31
  • 798B
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:3.2 偏置-方差分解
举报原因:
原因补充:

(最多只允许输入30个字)