2 经验风险最小化(ERM)归纳原则
2.1 ERM 原则的一致性
经验风险(empirical risk)泛函:
R e m p ( α ) = 1 l ∑ i = 1 l Q ( z i , α ) R_{emp}(\alpha)=\dfrac{1}{l}\sum\limits_{i=1}^lQ(z_i,\alpha) Remp(α)=l1i=1∑lQ(zi,α)
经验风险最小化( Empirical Risk Minimization, ERM )原则即认为使经验风险泛函 R e m p ( α ) R_{emp}(\alpha) Remp(α) 最小的损失函数 Q Q Q 也可以使风险泛函 R ( α ) R(\alpha) R(α) 达到最小。若将 Q Q Q 代入回归模型损失函数,ERM 原则变为最小二乘法,若代入概率密度估计损失函数,ERM 原则则变为最大似然方法。
为确认 ERM 原则的可靠性,我们首先需要对其一致性进行分析。ERM原则一致性和非平凡一致性的定义如下
定义 2.1
对于风险泛函 R ( α ) R(\alpha) R(α) 和 经验风险 R e m p ( α ) R_{emp}(\alpha) Remp(α) 若
R ( α l ) → l → ∞ p inf α ∈ Λ R ( α ) a n d R e m p ( α l ) → l → ∞ p inf α ∈ Λ R ( α ) R(\alpha_l) \xrightarrow[l \rightarrow \infty]{p} \inf\limits_{\alpha \in \Lambda} R(\alpha) \space and \space R_{emp}(\alpha_l) \xrightarrow[l \rightarrow \infty]{p} \inf\limits_{\alpha \in \Lambda} R(\alpha) R(αl)pl→∞α∈ΛinfR(α) and Remp(αl)pl→∞α∈ΛinfR(α)
则称ERM原则对 Q ( z , α ) , α ∈ Λ , F ( z ) Q(z, \alpha), \alpha \in \Lambda, F(z) Q(z,α),α∈Λ,F(z) 是一致的。
定义 2.2
设
Λ ( c ) = { α : ∫ Q ( z , α ) d F ( z ) > c , α ∈ Λ } \Lambda (c) = \{\alpha: \int Q(z, \alpha)dF(z) > c, \alpha \in \Lambda \} Λ(c)={ α:∫Q(z,α)dF(z)>c,α∈Λ}
若
inf α ∈ Λ ( c ) R e m p ( α ) → l → ∞ P inf α ∈ Λ ( c ) R ( α ) , ∀ Λ ( c ) ≠ ∅ \inf\limits_{\alpha \in \Lambda (c)} R_{emp} (\alpha) \xrightarrow[l \rightarrow \infty]{P} \inf\limits_{\alpha \in \Lambda (c)} R(\alpha), \forall \Lambda(c) \not = \varnothing α∈Λ(c)infRemp(α)Pl→∞α∈Λ(c)infR(α),∀Λ(c)=∅
称 ERM 原则对 Q ( z , α ) , α ∈ Λ , F ( z ) Q(z, \alpha), \alpha \in \Lambda, F(z) Q(z,α),α∈Λ,F(z) 是非平凡一致的。这是为了排除函数集 Q ( z , α ) Q(z, \alpha) Q(z,α) 中包含一个对任意 z z z 均为最小的函数从而平凡地满足原定义的情况。
ERM 一致单边收敛的条件如下定理所述。
定理 2.1
(1989, Vapnik and Chervonenkis) 设函数集 Q ( z , α ) Q(z, \alpha) Q(z,α) 满足条件 A ≤ R ( α ) ≤ B A \le R(\alpha) \le B A≤R(α)≤B 那么 ERM 原则一致性的充要条件为:
lim l → ∞ P { sup α ∈ Λ ( R ( α ) − R e m p ( α ) ) > ϵ } = 0 , ∀ ϵ > 0 \lim\limits_{l \rightarrow \infty} P\{ \sup\limits_{\alpha \in \Lambda} (R(\alpha) - R_{emp}(\alpha)) > \epsilon \} = 0, \forall \epsilon > 0 l→∞limP{ α∈Λsup(R(α)−Remp(α))>ϵ}=0,∀ϵ>0
称这种一致收敛为一致单边收敛。
显然在定理2.1条件下有一致双边收敛充要条件:
lim l → ∞ P { sup α ∈ Λ ∣ R ( α ) − R e m p ( α ) ∣ > ϵ } = 0 , ∀ ϵ > 0 \lim\limits_{l \rightarrow \infty} P\{ \sup\limits_{\alpha \in \Lambda} |R(\alpha) - R_{emp}(\alpha)| > \epsilon \} = 0, \forall \epsilon > 0 l→∞limP{
α∈Λsup∣R(α)−Remp(α)∣>ϵ}=0,∀ϵ>0
我们希望找到上式(类似于大数定理)的等价条件。在此之前,我们先引入 随机熵、熵、随机 VC 熵、VC 熵 的概念。
考虑模式识别问题,设 Q ( z , α ) , α ∈ Λ Q(z, \alpha), \alpha \in \Lambda Q(z,α),α∈Λ 为一个指示函数集,考虑样本 ( z i ) ( z_i ) (zi), 定义 N Λ ( z 1 , . . . , z l ) N^\Lambda (z_1,...,z_l) NΛ(z