在机器学习中总是绕不开的几个概念就是bias, variance, underfitting, overfitting, training error, test error。他们之间到底是什么关系呢?
概念
training error: 在训练集中,模型预测的值和真实值之间的误差;(一次测量准确性)
cross validation error or test error: 在交叉验证或测试集中,模型预测值和真实值之间的误差;(多次测量的一致性)
high bias (under fit): 是指在训练集中,模型预测值和真实值之间的误差比较大,即模型测量真实值不准确;
high variance(over fit): 是指在交叉验证集或测试集中,模型预测的误差较大。有可能有两种情况,一种情况是训练集中模型预测的就不准确;另一种情况是在预测集中模型预测非常准确(100%能预测),但是在交叉验证或测试集中模型预测的误差很大,即多次测量的一致性较低。
bias:
模型预测的平均值和真实值之间的误差,高bias说明,模型没有很好的拟合训练集的数据,往往是由于参数太少,模型过去简单导致的。结果导致训练数据和测试数据的误差都会比较大。比如:用线性模型预测非线性数据。
variance:
每次模型单独预测的值和模型多次预测的平均值之间的误差,高variance说明,模型对训练数据拟合的特别好,但是泛化能力很差