Bias && Variance及相关的问题理解

最新推荐文章于 2023-07-04 11:11:50 发布

lxk1990727

最新推荐文章于 2023-07-04 11:11:50 发布

阅读量1.1k

点赞数 2

分类专栏： machine learning 文章标签：统计学习 Bias和Variance 欠拟合和过拟合 Bagging和Boosting

本文链接：https://blog.csdn.net/lxk1990727/article/details/45172099

版权

machine learning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基本思想：泛化和具体、欠拟合和过拟合

最小二乘的Bias-Variance的分解

假定我们有一个训练集合{(x_i, y_i)}，而且y_i = f(x_i) + e，其中e是满足以0为均值，delta为方法的正态分布；我们想找到一个函数h(x)，能够尽量近似地表示函数f(x)，那么我们的目的就是最小化sum{y - h(x)}，其中(x,y)不仅仅是训练集中的(x,y)，而且还包含那些未知的数据集合。通过理论推导我们可以得到

E[(y - h(x)) ^ 2] = Bias[h(x)] ^ 2 + Variance[h(x)] ^ 2 + e，直观地理解，Bias[h(x)]反映了h(x)在训练集合上的拟合能力，而Variance[h(x)]反应了h(x)在一个新的观测样本上的拟合了能力。

Bias和Variance往往是此消彼长的关系，尽力去优化一个，往往会带来另一个的增加。好的有监督学习方法往往是在trade off两者。

Bias && Variance 与欠拟合 && 过拟合

下图是Bias && Variance去理解欠拟合和过拟合问题的经典的图

从上图中我们可以看到，当模型的复杂度很低时，该模型的Bias很高，Variance很低，以回归为例，将所有的预测的结果设置为20，这样的模型是非常欠拟合的，所以对预测集的拟合的结果很差；当模型的复杂度很低时，该模型的Bias很低，Variance很低，对训练集合进行了过拟合，导致它对新的观测数据的泛化能力很差。

Bias && Variance和Bagging && Boosting

我们分别以RandomForest和GBDT作为Bagging和Boosting的例子来说明。

RandomForest中每棵决策树训练的时候，会随机地无放回地从训练集合中抽取样本大小的数据训练决策树，训练的样本中大概有63%个不同的训练集合。这样对训练集合的拟合能力会变差，这样会导致Bias的增加，但是RandomForest会训练出很多棵树，预测的时候会对不同树的结果进行一次选举（average），会降低Variance。

GBDT是Boosting的典型代表。主要是加大分错样本的权重；而GBDT是通过计算每棵树的中残差作为下一棵树的训练。预测的时候在不同树上跑，将得到的结果求和得到最终的预测结果。直观地理解，该方法确实尽量去拟合训练数据，会带来Bias的降低，有人说它还会降低Variance，我直观上还没法理解，不过GBDT中Bias的降低的幅度是很大的，它主要是通过降低Bias来获得较好的model。