回归(Regression)模型中衡量一个模型的好坏可以用偏差(Bias)和方差(Variance)两个指标,两个指标的不同情况对应:
高偏差、低方差 | 欠拟合() |
偏差、方差适中 | 刚好 |
低偏差、高方差 | 过拟合 |
方差:指的是模型之间的差异。例如:如果从数据中取一个随机样本集并用线性模型拟合,将会得到一组回归系数(即建立了一个线性模型)。同理,再取另一组随机样本集并拟合,将会得到另一组回归系数(另一个线性模型)。这两个模型的系数差异也就是模型方差的大小反映。
偏差:指的时模型预测结果与测量值之间的差异。描述的是对数据的拟合程度。
当我们采用简单模型时,往往偏差大而方差很小(因为简单模型拟合能力有限,只能描述数据大致趋势,无法描述数据的细节),当我们采用复杂模型时,往往偏差小而方差很大(因为模型拟合能力强,能描述数据的细节,包括噪声)