Bias:偏差
Variance:方差
Loss=bias+variance
模型越复杂,方差越大,偏差越小
模型越简单,方差越小,偏差越大
怎么判断是过拟合还是欠拟合?是方差大还是偏差大?
假如在训练集上拟合的不好就是欠拟合(偏差大)
假如在训练集上表现不错,但是在测试集表现不咋样,那就是过拟合(方差大)
假如是欠拟合,可以选择增加一些特征或者选择更复杂的模型
假如是过拟合,可以选择 使用更多的数据(数据增强),regularization,剪枝等等
所以需要平衡这两个误差,使得total error最小
不应该做的事:
用训练集训练出很多模型,然后用test set来衡量模型性能,因为test set本身也具有bias,使用其来寻找best model也会有误差,因此需要使用validation set,建议使用K折交叉验证(太麻烦)