泛化能力差和过拟合问题
以一维的回归分析为例,输出为目标函数加上一点噪声yn=fn(xn)+noise。如果用高阶多项式去拟合数据的话(比如有五个数据点,用四次多项式去拟合的话,如果让该多项式曲线均通过这几个数据点的话,则只有唯一解),这种情况可能使得训练误差Ein很小,但是实际的真实误差就可能很大,这说明我们求解的模型的泛化能力很差(bad generalization),这在训练误差很小的情况下推论到未知的数据的话预测结果就会很糟。
VC bound告诉我们,当vc维很高的时候,就会发生Ein很低,但Eout很高的情形。