机器学习中,寻找偏差与方差平衡是机器学习中的根本。
一般的,针对机器学习而言,数据集在模型训练中会被分为训练集(training data)、验证集(validation data)、测试集(test data)。其中,测试集是在模型训练好后,对该模型的客观评价,测试集数据一定不要参与训练。这里探讨的主要是偏差与方差的关系,测试集就不过多的探讨。
模型的偏差=偏差+方差+不可消除的偏差(对于给定的模型,该误差是无法消除的误差)。
调参的本质就在于偏差与方差之间的平衡。
1.高偏差
如图2所示,最左边的图像的模型是一条直线,对于数据的分类“较差”(欠拟合),通俗的讲,我们可以认为该模型具有较高的偏差。最右边的图像是一条高阶曲线,很“精确”的区分了两类数据,但是实际上泛化能力却很差(过拟合),那么我们就认为该模型是高方差。简单的讲,高偏差会带来模型欠拟合问题,而高方差由于对未知数据太过敏感,一般是过拟合问题。从这方面我们可以看出,机器学习中模型的训练、调参的根本就是为了找到偏差、方差的平衡。
下面从模型数据集的误差来探讨这个问题