统计学习理论作为机器学习的基础,本文主要对统计学习理论进行简要介绍
Excess Risk Decomposition
上篇文章说到,对于hypothesis space F \mathcal F F, f F = a r g m i n f ∈ F E ( x , y ) ∼ P X × Y [ l ( f ( x ) , y ) ] f_{\mathcal F}=argmin_{f\in \mathcal F}E_{(x,y)\sim P_{\mathcal X\times\mathcal Y}}[l(f(x), y)] fF=argminf∈FE(x,y)∼PX×Y[l(f(x),y)] f ^ n = a r g m i n f ∈ F 1 n Σ i = 1 n l ( f ( x i ) , y i ) \hat f_n = argmin_{f\in \mathcal F}\frac{1}{n}\Sigma_{i=1}^nl(f(x_i), y_i) f^n=argminf∈Fn1Σi=1nl(f(xi),yi)
f F f_{\mathcal F} fF和 f ∗ f^* f∗的risk的差距叫做approximation error, f ^ n \hat f_n f^n和 f F f_{\mathcal F} fF的risk的差距叫做estimation error。 f ^ n \hat f_n f^n与 f ∗ f^* f∗的risk差距叫做excess risk,可以被分解为approximation error与estimation error的和。
但是实际上,我们一定能找到 f ^ n \hat f_n f^n吗,我们的优化方法并不一定能找到 f ^ n \hat f_n f^n,所以我们往往得到的是次优解 f ~ n \tilde f_n f~n, f ~ n \tilde f_n f~n与 f ^ n \hat f_n f^n的risk的差距叫做optimization error。
参考资料:NYU 《Deep Learning》2020