关闭

3.2 偏置-方差分解

标签: 机器学习模式识别PRML贝叶斯方法
420人阅读 评论(0) 收藏 举报
分类:

3.2、偏置-方差分解

平方损失函数的最优预测为:

h(x)=E(tx)=tp(tx)dt

期望为:
E(L)={y(x)h(x)}2p(x)dx+{h(x)t}2p(x,t)dxdt

第二项与 y(x) 无关,是由数据本身的噪声造成的。

对于回归模型复杂度的评估,贝叶斯学家和频率学家采用两种不同的思维。频率学家执着于对数据集的点估计,他们假设有许多独立同分布的数据集,对于每一个数据集,回归模型都会给出预测的结果,那么模型的表现就可以通过取各数据集上预测结果的平均表现。

对于特定的数据集D,对第一项进行分解:

{y(x;D)h(x)}2={y(x;D)ED(x;D)+ED(x;D)h(x)}2={y(x;D)h(x)}2={y(x;D)ED(x;D)}2+{ED(x;D)h(x)}2+2{y(x;D)ED(x;D)}{ED(x;D)h(x)}

我们现在关于D求期望,然后注意到最后⼀项等于零,可得:
ED({y(x;D)h(x)}2)={ED(y(x;D))h(x)}2+ED({y(x;D)ED(y(x;D))}2)

第⼀项,被称为平⽅偏置(bias),表⽰所有数据集的平均预测与预期的回归函数之间的差异。第⼆项,被称为⽅差(variance),度量了对于单独的数据集,模型所给出的解在平均值附近波动的情况,因此也就度量了函数y(s;D)对于特定的数据集的选择的敏感程度。

=2++

⼩的λ使得模型对于各个数据集⾥的噪声的拟合效果⾮常好,导致了较⼤的⽅差,相反,⼤的λ把权值参数拉向零,导致了较⼤的偏置。
偏置大的称为欠拟合,方差大的称为过拟合。

偏置-方差分解是频率学家分析模型的一种方法,但这种方法有着一定的缺陷。因为这种评估方法的基础是对所有数据集取平均,然而在现实生活中我们只会有一个数据集,如果强行将数据集拆成多个,只会降低结果的准确性。

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:16125次
    • 积分:486
    • 等级:
    • 排名:千里之外
    • 原创:27篇
    • 转载:0篇
    • 译文:6篇
    • 评论:4条
    文章分类
    最新评论