统计学习理论中关于经验风险与实际风险之间的重要结论,称之为推广性的界。显然,在观测数据的先验概率和类条件概率都无法准确获得的情况下,推广性的界对于学习机器的性能有着至关重要的影响。
研究人员通过对大量的数据分析发现在经验风险最小化原则下的学习机器的期望风险实际上由两部分组成的,可以简单的表示为如下的形式:
上式中的第一部分是经验风险,第二部分我们称之为置信范围(或VC置信度)。置信界限是期望风险与经验风险差值的上界,它反映了模型复杂性与样本复杂性对泛化能力的影响。
进一步分析我们发现,当n/h较小时,置信范围就较大,用经验风险近似真实风险就有较大的误差,用经验风险最小化取得的最优解可能具有较差的推广性;如果样本数目较多,n/h较大,则置信范围就会很小,经验风险最凶啊花的最优解就接近真实的最优解。
另一方面,对于一个特定的问题,其样本数n是固定的,此时学习机器的VC维(即复杂性越高)越高,置信范围越大,导致真实风险与期望风险之间可能的差就越大,因此,在设计分类器时,我们不但要使经验风险最小化,还要使得VC维尽量小,从而缩小置信范围,使得期望风险最小。这也是为什么一般情况下选用过于复杂的分类器或神经网络往往得不到好的效果的原因。神经网络等方法之所以会出现过学习的情况,就是因为在有限样本情况下,如果网络或算法的设计不合理,就会导致虽然经验风险较小,但置信范围会很大,导致推广能力下降。