我们制定策略就是在制定评价准则,那么什么样的评价准则才能很好的表现模型的好坏呢?当进行图片分类任务时,已知的是图片X和图片所属的类别Y,选择模型f进行预测f(X),我们期望的是Y和f(X)的差别很小,这个差别称为损失,学习的目标就是选择期望损失最小的模型。期望损失是定义在X,Y的联合分布上的,而联合分布是未知的,所以期望损失无法求得。根据大数定律,我们知道当训练样本足够多时,经验损失是趋于期望损失的,所以当样本足够多时,学习的目标可以转为选择经验误差最小的模型。但是现实中又不可能获得足够多的样本,所以当样本不足时,如果还是按照上面的方式求出经验误差最小的模型就可能会得到很差的模型,产生过拟合现象。
我们先来分析为什么在样本不足时产生了过拟合现象?因为数据量不足时经验误差不再趋于期望误差,也就说明经验误差已经不能很好的反映期望误差了,所以此时就需要对经验误差的定义进行修改,来尽可能地弥补因为样本量不足而造成的这一问题。修改经验误差的定义,也就是修改模型的评价准则,但是为什么修改评价准则会有效果呢?从哲学上讲,规律具有普遍性和特殊性,当样本不足时学习到的可能就是特殊规律,拿着特殊规律去预测数据就得不到很好的效果,又由于普遍规律存在于特殊规律之中,并通过特殊规律表现出来,所以可以通过修正获得规律的方法来尽可能地使获得的特殊规律趋于普遍规律。如何修改评价准则呢?定义 结构风险=经验风险+正则化项,在出现过拟合时,就可以通过最优化结构风险来学习到最优的模型了。