结构风险最小化(SRM)是机器学习中使用的归纳原理。通常在机器学习中,必须从有限数据集中选择广义模型,随之产生过度拟合的问题——模型变得过于强烈地适应训练集的特性而对新数据的概括性差。SRM原则通过平衡模型的复杂性和其在拟合训练数据方面的成功来解决这个问题。
有许多理论和实验工作表明123,在测试集的期望误差率 Etest E test 和在训练集的训练误差率 Etrain E train 的差距随着训练样本的数量大致减少而减少。
其中P是训练样本的数量,h是衡量机器“有效容量”或复杂程度的指标,
α
α
是在0.5和1.0之间的数,k是一个常量。当训练样本数量P增加,这个差距总会降低。随着复杂程度h增长,
Etrain
E
train
降低。因此,当增长容量h,在
Etrain
E
train
降低和差距增长之间有一个权衡,一个合适的容量h值,可以实现最低了测试误差率
Etest
E
test
。
大多数学习算法尝试最小化 Etrain E train 的同时最小化这个差距。这种形式的正式版本称为结构风险最小化(structural risk minimization),并且基于定义增加复杂程度的学习机器序列,其对应于参数空间的子集序列,使得每个子集是先前子集的超集。Structural risk minimization通过最小化 Etrain+βH(W) E train + β H ( W ) 来实现,其中 H(W) H ( W ) 叫做正则化函数, β β 是一个常量。在参数空间的高容量的子集中, H(W) H ( W ) 对参数W取大值。最小化 H(W) H ( W ) 有效地限制了参数空间可访问子集的容量,因此控制了最小化训练误差和最小化期望差距的权衡。
- S. Seung, H. Sompolinsky, and N. Tishby, “Statistical mechan-
ics of learning from examples,” Physical Review A , vol. 45, pp.
6056-6091, 1992. ↩ - V. N. Vapnik, E. Levin, and Y. LeCun, “Measuring the vc-
dimension of a learning machine,” Neural Computation , vol. 6,
no. 5, pp. 851-876, 1994. ↩ - C. Cortes, L. Jackel, S. Solla, V. N. Vapnik, and J. Denker,
“Learning curves: asymptotic values and rate of convergence,”
in Advances in Neural Information Processing Systems 6 , J. D.
Cowan, G. Tesauro, and J. Alspector, Eds., San Mateo, CA,
1994, pp. 327-334, Morgan Kaufmann. ↩