Bias && Variance及相关的问题理解

基本思想:泛化和具体、欠拟合和过拟合

最小二乘的Bias-Variance的分解

假定我们有一个训练集合{(x_i, y_i)},而且y_i = f(x_i) + e,其中e是满足以0为均值,delta为方法的正态分布;我们想找到一个函数h(x),能够尽量近似地表示函数f(x),那么我们的目的就是最小化sum{y - h(x)},其中(x,y)不仅仅是训练集中的(x,y),而且还包含那些未知的数据集合。通过理论推导我们可以得到

E[(y - h(x)) ^ 2] = Bias[h(x)] ^ 2 + Variance[h(x)] ^ 2 + e,直观地理解,Bias[h(x)]反映了h(x)在训练集合上的拟合能力,而Variance[h(x)]反应了h(x)在一个新的观测样本上的拟合了能力。

Bias和Variance往往是此消彼长的关系,尽力去优化一个,往往会带来另一个的增加。好的有监督学习方法往往是在trade off两者。


Bias && Variance 与 欠拟合 && 过拟合

下图是Bias && Variance去理解欠拟合和过拟合问题的经典的图


从上图中我们可以看到,当模型的复杂度很低时,该模型的Bias很高,Variance很低,以回归为例,将所有的预测的结果设置为20,这样的模型是非常欠拟合的,所以对预测集的拟合的结果很差;当模型的复杂度很低时,该模型的Bias很低,Variance很低,对训练集合进行了过拟合,导致它对新的观测数据的泛化能力很差。

Bias && Variance和Bagging && Boosting

我们分别以RandomForest和GBDT作为Bagging和Boosting的例子来说明。

RandomForest中每棵决策树训练的时候,会随机地无放回地从训练集合中抽取样本大小的数据训练决策树,训练的样本中大概有63%个不同的训练集合。这样对训练集合的拟合能力会变差,这样会导致Bias的增加,但是RandomForest会训练出很多棵树,预测的时候会对不同树的结果进行一次选举(average),会降低Variance。

GBDT是Boosting的典型代表。主要是加大分错样本的权重;而GBDT是通过计算每棵树的中残差作为下一棵树的训练。预测的时候在不同树上跑,将得到的结果求和得到最终的预测结果。直观地理解,该方法确实尽量去拟合训练数据,会带来Bias的降低,有人说它还会降低Variance,我直观上还没法理解,不过GBDT中Bias的降低的幅度是很大的,它主要是通过降低Bias来获得较好的model。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值