1我们将从三个方面阐述偏差与方差。(Bias and Variance)
1.1概念性的定义
基于偏差的误差:所谓基于偏差的误差是我们模型预期的预测与我们将要预测的真实值之间的差值。偏差是用来 衡量我们的模型的预测同真实值的差异。
基于方差的误差:基于方差的误差描述了一个模型对给定的数据进行预测的可变性。比如,当你多次重复构建完 整模型的进程时,方差是在预测在模型的不同关系间变化的多少。
1.2图形上的定义
假设靶心是最适合给定数据的模型,离靶心越远,我们的预测就越糟糕。有时,我们对训练数据的预测结果更接 近靶心,有时我们的结果相互分散。如下图:
1.3数学上的定义
我们定义我们要预测的变量为Y,协变量为X,我们假设有Y=f(X)+ϵ,其中误差项服从均值为0的正态分布.
我们用线性回归或者别的模型来估计f(X) 为.其中,对x来说,误差为:
用偏差和方差表述:
最后一项为噪声,是无法通过模型降低的。
最后,关于过拟合和欠拟合(Over- and Under-Fitting)
我们用一个参数少的,简单的模型进行预测,会得到低方差,高偏差,通常会出现欠拟合,而我们用一个参数多 的,复杂的模型进行预测,会得到高方差,低偏差,通常出现过拟合。下图描述了偏差与方差跟模型复杂度的关 系:
其中: