泛化误差上界
References
统计学习方法(第2版)李航著 p25~27
定理
对于二分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , . . . , f d } F=\{f_1,f_2,...,f_d\} F={ f1,f2,...,fd}时,对任意一个函数 f ∈ F f\in F f∈F,至少以概率 1 − δ 1-\delta 1−δ, 0 < δ < 1 0<\delta<1 0<δ<1,以下不等式成立: R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) R(f)\leq \hat{R}(f)+\varepsilon(d,N,\delta) R(f)≤R^(f)+ε(d,N,δ)其中, ε ( d , N , δ ) = 1 2 N ( log d + log 1 δ ) \varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\log{d}+\log{\frac{1}{\delta}})} ε(d,N,δ)=2N1(logd+logδ1)
前置知识
关于 f f f的期望风险: R ( f ) = E [ L ( Y , f ( X ) ) ] R(f)=E[L(Y,f(X))] R(f)=E[L(Y,f(X))]经验风险: R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \hat{R}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i)) R^(f)=N1i=1∑NL(yi,f(xi))其中, L L L是损失函数。
个人理解
首先,看定理的名字“泛化误差上界”。泛化误差指的是模型 f f f对未知数据预测的误差,大白话来说就是测试集上的cost。事实上,泛化误差就是期望风险 R ( f ) R(f)