优化模型、评估模型指标
训练均方误差:训练集上的数据,那么这个误差为训练均方误差
测试均方误差:测试集的数据计算的均方误差,我们称为测试均方误差
目标:我们并不关心模型在训练集上的训练均方误差,我们关心的是模型面对未知的样本集,即测试集上的测试误差,我们的目标是使得我们建立的模型在测试集上的测试误差最小。
训练误差达到最小时,测试均方误差一般很大
模型的方差:用不同的数据集去估计ff时,估计函数的改变量,例如:100个1000人的样本集。我们使用线性回归模型估计参数就能得到100个线性回归模型。由于样本抽取具有随机性,我们得到的100个模型不可能参数完全一样,那么这100个模型之间的差异就叫做方差。一个稳定的模型,也就是在不同的样本集估计的模型都不会相差太大,即要求f的方差越小越好。一般来说,模型的复杂度越高,f的方差就会越大。方差度量的是同一个模型在不同数据集上的稳定性
模型的偏差:以一个的模型去估计真实函数时存在的误差,偏差度量了某个学习算法的期望预测与真实结果的偏离程度,即刻画了某个学习算法本身的拟合能力。偏差度量的是某个模型的学习能力。
方差–偏差的权衡
一般而言,增加模型的复杂度,会增加模型的方差,但是会减少模型的偏差,我们要找到一个方差–偏差的权衡,使得测试均方误差最。