泛化误差上界

本文深入探讨了机器学习中的损失函数与风险函数,包括0-1损失、平方损失、绝对值损失和对数似然损失等。经验风险与期望风险之间的关系以及在样本有限时如何利用结构风险最小化策略防止过拟合。此外,还详细阐述了泛化能力的度量——泛化误差上界,并通过马尔可夫不等式、霍夫丁不等式证明了泛化误差的概率上界。最后,以二分类问题为例展示了泛化误差上界的计算方法,强调了样本数量和假设空间大小对泛化能力的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


1. 损失函数与风险函数

机器学习中,需要通过损失函数来度量模型一次预测的好坏,通常用 L ( Y , f ( x ) ) L(Y,f(x)) L(Y,f(x))来表示,常见的损失函数有:

  • 0-1损失函数(指示函数)
    L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(X))= \begin{cases} 1, \quad & Y \neq f(X) \\ 0, & Y=f(X) \end{cases} L(Y,f(X))={1,0,Y=f(X)Y=f(X)
  • 平方损失函数
    L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Yf(X))2
  • 绝对值损失函数
    L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)
  • 对数似然损失函数
    L ( Y , P ( Y ∣ X ) ) = − l n P ( Y ∣ X ) L(Y,P(Y|X))=-lnP(Y|X) L(Y,P(YX))=lnP(YX)

风险函数则是损失函数的平均:
若是在训练样本集上的平均,则称为经验风险或经验损失(Empirical Risk/Loss),记作 R e m p ( f ) R_{emp}(f) Remp(f)。给定训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\lbrace(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\rbrace T={(x1,y1),(x2,y2),,(xN,yN)},则:
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}{L(y_i,f(x_i))} Remp(f)=N1i=1NL(yi,f(xi))
若是在样本空间上的期望,则为期望风险或期望损失(Expected Risk/Loss),记作 R e x p ( f ) R_{exp}(f) Rexp(f)。模型的输入、输出 ( X , Y ) (X,Y) (X,Y)是随机变量,遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y),则:
R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y \begin{aligned} R_{exp}(f) & =E_P[L(Y,f(X))] \\ &=\int_{X\times Y}{L(y,f(x))P(x,y) \mathrm{d} x \mathrm{d} y} \end{aligned} Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy
模型训练的终极目的是为了降低期望风险。但由于联合分布 P ( X , Y ) P(X,Y) P(X,Y)是未知的,所以期望风险只存在理论意义。
根据大数定律,当样本容量 N N N趋于无穷时,经验风险趋于期望风险。因此,在实际训练时,我们可以用经验风险去近似期望风险。针对样本容量大小,存在两种训练策略:经验风险最小策略和结构风险最小策略。
当样本容量足够大时,经验风险最小策略就能保证较好的训练效果,即:
min ⁡ f ∈ F R e m p ( f ) \min_{f\in F}{R_{emp}(f)} fFminRemp(f)
如果训练样本有限,经验风险最小策略就会产生“过拟合”,可在经验风险的基础上增加表示模型复杂度的正则化项(罚项),即结构风险最小策略(Structural Risk Minimization, SRM):
min ⁡ f ∈ F R s r m ( f ) = min ⁡ f ∈ F [ R e m p ( f ) + λ J ( f ) ] \min_{f\in F}{R_{srm}(f)}=\min_{f\in F}{[R_{emp}(f)+\lambda J(f)]} fFminRsrm(f)=fFmin[Remp(f)+λJ(f)]
其中, J ( f ) J(f) J(f)表示模型复杂度,是定义在假设空间 F F F上的泛函, f f f越复杂, J ( f ) J(f) J(f)越大,比如在多项式函数空间,多项式系数的平方和可作为度量函数复杂度的指标。 λ ≥ 0 \lambda \geq 0 λ0是正则化系数,用于权衡经验风险和模型复杂度。
正则化方法符合奥卡姆剃刀原理:在所有可能的模型中,能够很好解释已有数据,且最简单的模型才是最好的模型。这样的模型泛化能力强。

2. 泛化能力与泛化误差上界

泛化能力是指模型对未知数据的预测能力,可以通过泛化误差来度量。泛化误差即期望误差,由于其只存在理论意义,我们只能从理论上寻找泛化误差的概率上界。
首先我们可以有一个定性的认识:样本越多,泛化上界越小;假设空间越大,泛化上界越大;当样本容量趋近于无穷时,泛化上界趋于0。因此,泛化误差上界应该是一个与样本容量、假设空间容量有关的函数。
我们通过一个最简单的二分类问题来研究泛化误差上界的证明方法。
给定训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\lbrace(x_1,y_1),(x_2,y_2), \dots,(x_N,y_N) \rbrace T={(x1,y1),(x2,y2),,(xN,yN)} N N N为样本容量, X ∈ R n X \in \mathrm{R}^n XRn Y ∈ { − 1 , + 1 } Y \in \lbrace -1,+1\rbrace Y{1,+1}。假设空间为有限函数集合 F ∈ { f 1 , f 2 , … , f d } F\in \lbrace f_1,f_2,\dots,f_d \rbrace F{f1,f2,,fd} d d d是假设空间容量。损失函数为0-1损失。有如下关于泛化误差上界的定理:

对任意 f ∈ F f\in F fF,以下不等式至少以概率 1 − δ , 0 < δ < 1 1-\delta, 0<\delta <1 1δ,0<δ<1成立:
R e x p ( f ) ≤ R e m p ( f ) + ϵ ( d , N , δ ) R_{exp}(f)\leq R_{emp}(f)+\epsilon(d,N,\delta) Rexp(f)Remp(f)+ϵ(d,N,δ)
其中, ϵ ( d , N , δ ) = 1 2 N ( l n d + l n 1 δ ) \epsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\mathrm{ln}d+\mathrm{ln}\frac{1}{\delta})} ϵ(d,N,δ)=2N1(lnd+lnδ1)

该不等式左侧即为泛化误差;右侧为泛化误差上界,由经验误差 R e m p R_{emp} Remp ϵ ( d , N , δ ) \epsilon(d,N,\delta) ϵ(d,N,δ)两部分组成, ϵ ( d , N , δ ) \epsilon(d,N,\delta) ϵ(d,N,δ)的单调性与我们的定性认识一致:样本容量 N N N越大, ϵ \epsilon ϵ越小,且 ϵ \epsilon ϵ l n d \sqrt{\mathrm{ln}d} lnd 同阶。
该定理的证明需要用到马尔可夫不等式和霍夫丁(Hoeffding)不等式,霍夫丁不等式的证明又需要用到霍夫丁引理。下面依次进行证明。

3. 相关证明

3.1 马尔可夫不等式

马尔可夫不等式把概率关联到数学期望,给出了随机变量的分布函数的一个上界。

若随机变量 X ≥ 0 X\geq 0 X0,且 E ( X ) E(X) E(X)存在,则有:
P ( X ≥ ϵ ) ≤ E ( X ) ϵ , ϵ > 0 P(X\geq \epsilon) \leq \frac{E(X)}{\epsilon}, \quad \epsilon>0 P(Xϵ)ϵE(X),ϵ>0

证明:
P ( X ≥ ϵ ) = ∫ X ≥ ϵ p ( x ) d x ≤ ∫ X ≥ ϵ x ϵ p ( x ) d x = 1 ϵ ∫ X ≥ ϵ x p ( x ) d x ≤ 1 ϵ ∫ − ∞ + ∞ x p ( x ) d x = E ( X ) ϵ \begin{aligned} P(X \geq \epsilon) &= \int_{X \geq \epsilon}{p(x) dx} \\ &\leq \int_{X \geq \epsilon}{\frac{x}{\epsilon} p(x) dx} \\ &= \frac{1}{\epsilon} \int_{X \geq \epsilon}{x p(x) dx} \\ &\leq \frac{1}{\epsilon}\int_{- \infty}^{+ \infty}{x p(x) dx} \\ &= \frac{E(X)}{\epsilon} \end{aligned} P(Xϵ)=Xϵp(x)dxXϵϵxp(x)dx=ϵ1Xϵxp(x)dxϵ1+xp(x)dx=ϵE(X)
马尔可夫不等式可以用来估计尾部事件的概率上界,例如: X X X表示工资, E ( X ) E(X) E(X)为平均工资,设 ϵ = n E ( X ) \epsilon=nE(X) ϵ=nE(X)表示平均工资的 n n n倍。根据马尔可夫不等式,工资超过平均工资 n n n倍的概率不超过 1 n \frac{1}{n} n1
切比雪夫不等式是马尔可夫不等式的特殊情况,其不限定随机变量的范围,应用更广泛。

若随机变量 X X X的期望和方差都存在,分别为 E ( X ) E(X) E(X) D ( X ) D(X) D(X),则有:
P { ∣ X − E ( X ) ∣ ≥ ϵ } ≤ D ( X ) ϵ 2 , ϵ > 0 P\lbrace|X-E(X)|\geq \epsilon \rbrace\leq \frac{D(X)}{\epsilon ^2}, \quad \epsilon >0 P{XE(X)ϵ}ϵ2D(X),ϵ>0

证明:
P { ∣ X − E ( X ) ∣ ≥ ϵ } = P { ∣ X − E ( X ) ∣ 2 ≥ ϵ 2 } ≤ E { ∣ X − E ( X ) ∣ 2 } ϵ 2 = D ( X ) ϵ 2 \begin{aligned} P \lbrace \left| X-E(X) \right| \geq \epsilon \rbrace &= P \lbrace \left| X-E(X) \right| ^2 \geq \epsilon ^2 \rbrace \\ & \leq \frac{E \lbrace \left| X-E(X) \right| ^2 \rbrace}{\epsilon ^2} \\ &= \frac{D(X)}{\epsilon ^2} \end{aligned} P{XE(X)ϵ}=P{XE(X)2ϵ2}ϵ2E{XE(X)2}=ϵ2D(X)
切比雪夫不等式描述了这样一个事实:偏离均值越大,概率越小,事件大多会集中在均值附近。

3.2 霍夫丁引理

对于随机变量 X X X a ≤ X ≤ b a\leq X \leq b aXb,且 E ( X ) = 0 E(X)=0 E(X)=0,则对于 ∀ λ ∈ R \forall \lambda \in R λR
E [ e λ X ] ≤ e λ 2 ( b − a ) 2 8 E[e^{\lambda X}]\leq e^{\frac{\lambda ^2 (b-a)^2}{8}} E[eλX]e8λ2(ba)2

证明:
霍夫丁引理的证明主要是使用了下凸函数的性质。对于凸函数 f ( x ) f(x) f(x),有:
f ( x ) ≤ f ( a ) + f ( b ) − f ( a ) b − a ( x − a ) , a ≤ x ≤ b f(x)\leq f(a)+\frac{f(b)-f(a)}{b-a}(x-a), \quad a\leq x\leq b f(x)f(a)+baf(b)f(a)(xa),axb
f ( X ) = e λ X f(X)=e^{\lambda X} f(X)=eλX为下凸函数,代入上式:
e λ X ≤ e λ a + e λ b − e λ a b − a ( X − a ) = b − X b − a e λ a + X − a b − a e λ b , ∀ X ∈ [ a , b ] \begin{aligned} e^{\lambda X} &\leq e^{\lambda a}+\frac{e^{\lambda b}-e^{\lambda a}}{b-a}(X-a) \\ &= \frac{b-X}{b-a}e^{\lambda a}+\frac{X-a}{b-a}e^{\lambda b}, \quad \forall X \in [a,b] \end{aligned} eλXeλa+baeλbeλa(Xa)=babXeλa+baXaeλb,X[a,b]
其中, X X X为取值于 [ a , b ] [a,b] [a,b]的随机变量,且 E ( X ) = 0 E(X)=0 E(X)=0,对上式两边同时求期望:
E ( e λ X ) ≤ b − E ( X ) b − a e λ a + E ( X ) − a b − a e λ b = b b − a e λ a + − a b − a e λ b = − a b − a e λ a ( − b a + e λ ( b − a ) ) \begin{aligned} E(e^{\lambda X})&\leq\frac{b-E(X)}{b-a}e^{\lambda a}+\frac{E(X)-a}{b-a}e^{\lambda b}\\ &=\frac{b}{b-a}e^{\lambda a}+\frac{-a}{b-a}e^{\lambda b}\\ &=\frac{-a}{b-a}e^{\lambda a}(-\frac{b}{a}+e^{\lambda(b-a)}) \end{aligned} E(eλX)babE(X)eλa+baE(X)aeλb=babeλa+baaeλb=baaeλa(ab+eλ(ba))
q = − a b − a q=\frac{-a}{b-a} q=baa h = λ ( b − a ) h=\lambda (b-a) h=λ(ba),上式可变形为:
E ( e λ X ) ≤ q e − q h ( 1 q − 1 + e h ) = e − q h ( 1 − q + q e h ) = e − q h + ln ⁡ ( 1 − q + q e h ) \begin{aligned} E(e^{\lambda X})&\leq qe^{-qh}(\frac{1}{q}-1+e^h)\\ &=e^{-qh}(1-q+qe^h)\\ &=e^{-qh+\ln(1-q+qe^h)} \end{aligned} E(eλX)qeqh(q11+eh)=eqh(1q+qeh)=eqh+ln(1q+qeh)
L ( h ) = − q h + l n ( 1 − q + q e h ) L(h)=-qh+ln(1-q+qe^h) L(h)=qh+ln(1q+qeh),上式可变形为:
E ( e λ X ) ≤ e L ( h ) E(e^{\lambda X}) \leq e^{L(h)} E(eλX)eL(h)
对于 L ( h ) L(h) L(h)在0处进行泰勒展开:
L ( h ) = L ( 0 ) + L ′ ( 0 ) h + L ′ ′ ( h ) 2 h 2 L(h)=L(0)+L'(0)h+\frac{L''(h)}{2}h^2 L(h)=L(0)+L(0)h+2L(h)h2
其中,
L ( h ) ∣ h = 0 = 0 L ′ ( h ) ∣ h = 0 = − q + q e h 1 − q + q e h = 0 L ′ ′ ( h ) = q e h ( 1 − q + q e h ) − ( q e h ) 2 ( 1 − q + q e h ) 2 = q e h 1 − q + q e h − ( q e h 1 − q + q e h ) 2 ≤ 1 4 \begin{aligned} L(h)|_{h=0}&=0\\ L'(h)|_{h=0}&=-q+\frac{qe^h}{1-q+qe^h}\\ &=0\\ L''(h)&=\frac{qe^h(1-q+qe^h)-(qe^h)^2}{(1-q+qe^h)^2}\\ &=\frac{qe^h}{1-q+qe^h}-(\frac{qe^h}{1-q+qe^h})^2\\ &\leq\frac{1}{4} \end{aligned} L(h)h=0L(h)h=0L(h)=0=q+1q+qehqeh=0=(1q+qeh)2qeh(1q+qeh)(qeh)2=1q+qehqeh(1q+qehqeh)241
代入上式,可得:
L ( h ) ≤ h 2 8 = λ 2 ( b − a ) 2 8 L(h) \leq \frac{h^2}{8}=\frac{\lambda ^2 (b-a)^2}{8} L(h)8h2=8λ2(ba)2
进而有:
E ( e λ X ) ≤ e λ 2 ( b − a ) 2 8 E(e^{\lambda X})\leq e^{\frac{\lambda ^2 (b-a)^2}{8}} E(eλX)e8λ2(ba)2

3.3 霍夫丁不等式

X 1 , X 2 , ⋯   , X N X_1, X_2, \cdots, X_N X1,X2,,XN是独立随机变量,且 X i ∈ [ a i , b i ] , i = 1 , 2 , ⋯   , N X_i \in [a_i, b_i],\quad i=1,2,\cdots,N Xi[ai,bi],i=1,2,,N X ‾ = 1 N ∑ i = 1 N X i \overline{X}=\frac{1}{N}\sum_{i=1}^{N}{X_i} X=N1i=1NXi,对任意 t > 0 t>0 t>0,以下不等式成立:
P [ X ‾ − E ( X ‾ ) ≥ t ] = P [ E ( X ‾ ) − X ‾ ≥ t ] = e − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 \begin{aligned} P[\overline{X}-E(\overline{X})\geq t]&=P[E(\overline{X})-\overline{X}\geq t] \\ &=e^{-\frac{2N^2t^2}{\sum_{i=1}^{N}{(b_i-a_i)^2}}} \end{aligned} P[XE(X)t]=P[E(X)Xt]=ei=1N(biai)22N2t2

证明:
P [ X ‾ − E [ X ‾ ] ≥ t ] = P [ e λ ( X ‾ − E [ X ‾ ] ) ≥ e λ t ] ≤ E [ e λ ( X ‾ − E [ X ‾ ] ) ] e λ t 马尔科夫不等式 = e − λ t E [ e λ ( 1 N ∑ i = 1 N ( X i ) − E [ 1 N ∑ i = 1 N ( X i ) ] ) ] = e − λ t E [ e λ N ∑ i = 1 N ( X i − E [ X i ] ) ] = e − λ t E [ ∏ i = 1 N e λ N ( X i − E [ X i ] ) ] = e − λ t ∏ i = 1 N E [ e λ N ( X i − E [ X i ] ) ] \begin{aligned} P[\overline{X}-E[\overline{X}]\geq t]&=P[e^{\lambda(\overline{X}-E[\overline{X}])}\geq e^{\lambda t}]\\ &\leq\frac{E[e^{\lambda(\overline{X}-E[\overline{X}])}]}{e^{\lambda t}}\quad\quad\text{马尔科夫不等式}\\ &=e^{-\lambda t}E[ e^{\lambda (\frac{1}{N}\sum_{i=1}^{N}(X_i)-E[\frac{1}{N}\sum_{i=1}^{N}(X_i)])}]\\ &=e^{-\lambda t}E[e^{\frac{\lambda}{N}\sum_{i=1}^{N}{(X_i-E[X_i ])}}]\\ &=e^{-\lambda t}E[\prod_{i=1}^{N}{e^{\frac{\lambda}{N}(X_i-E[X_i ])}}]\\ &=e^{-\lambda t}\prod_{i=1}^{N}{E[e^{\frac{\lambda}{N}(X_i-E[X_i ])}]} \end{aligned} P[XE[X]t]=P[eλ(XE[X])eλt]eλtE[eλ(XE[X])]马尔科夫不等式=eλtE[eλ(N1i=1N(Xi)E[N1i=1N(Xi)])]=eλtE[eNλi=1N(XiE[Xi])]=eλtE[i=1NeNλ(XiE[Xi])]=eλti=1NE[eNλ(XiE[Xi])]
由于 a i ≤ X i − E [ X i ] ≤ b i a_i \leq X_i -E[X_i ] \leq b_i aiXiE[Xi]bi,且 E [ X i − E [ X i ] ] = 0 E[X_i -E[X_i ] ]=0 E[XiE[Xi]]=0,由霍夫丁引理可知:
E [ e λ N ( X i − E [ X i ] ) ] ≤ e λ 2 ( b i − a i ) 2 8 N 2 E[e^{\frac{\lambda}{N}(X_i -E[X_i ])} ] \leq e^{\frac{\lambda ^2 (b_i - a_i )^2}{8N^2 }} E[eNλ(XiE[Xi])]e8N2λ2(biai)2
代入上式有:
P [ X ‾ − E [ X ‾ ] ≥ t ] ≤ e − λ t ∏ i = 1 N e λ 2 ( b i − a i ) 2 8 N 2 = e − λ t + λ 2 8 N 2 ∑ i = 1 N ( b i − a i ) 2 \begin{aligned} P \left[\overline{X}-E\left[\overline{X}\right] \geq t\right] &\leq e^{-\lambda t} \prod_{i=1}^{N}{e^{\frac{\lambda^2(b_i-a_i)^2}{8N^2}}} \\ &= e^{-\lambda t +\frac{\lambda^2}{8N^2}\sum_{i=1}^{N}{(b_i-a_i)^2}} \end{aligned} P[XE[X]t]eλti=1Ne8N2λ2(biai)2=eλt+8N2λ2i=1N(biai)2
g ( λ ) = − λ t + λ 2 8 N 2 ∑ i = 1 N ( b i − a i ) 2 g(\lambda)=-\lambda t+\frac{\lambda ^2}{8N^2}\sum_{i=1}^{N}{(b_i -a_i)^2} g(λ)=λt+8N2λ2i=1N(biai)2,为了得到一个最好的概率上界,可求 g ( λ ) g(\lambda) g(λ)最小值:
g ( λ ) ∣ λ = 4 N 2 t ∑ i = 1 N ( b i − a i ) 2 = − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 g(\lambda)|_{\lambda=\frac{4N^2 t}{\sum_{i=1}^{N}{(b_i -a_i)^2}}}=-\frac{2N^2 t^2}{\sum_{i=1}^{N}{(b_i -a_i)^2}} g(λ)λ=i=1N(biai)24N2t=i=1N(biai)22N2t2
从而有:
P [ X ‾ − E [ X ‾ ] ≥ t ] ≤ e − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 P[\overline{X}-E[\overline{X}]\geq t] \leq e^{-\frac{2N^2 t^2}{\sum_{i=1}^{N}{(b_i -a_i)^2}}} P[XE[X]t]ei=1N(biai)22N2t2
同理可得:
P [ E [ X ‾ ] − X ‾ ≥ t ] ≤ e − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 P[E[\overline{X}]-\overline{X}\geq t] \leq e^{-\frac{2N^2 t^2}{\sum_{i=1}^{N}{(b_i -a_i)^2}}} P[E[X]Xt]ei=1N(biai)22N2t2
命题得证。

3.4 假设空间有限的二分类问题的泛化误差上界

给定训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\lbrace (x_1,y_1),(x_2,y_2), \dots,(x_N,y_N) \rbrace T={(x1,y1),(x2,y2),,(xN,yN)} N N N为样本容量, X ∈ R n X \in \mathrm{R}^n XRn Y ∈ { − 1 , + 1 } Y \in \lbrace -1,+1\rbrace Y{1,+1}。假设空间为有限函数集合 F ∈ { f 1 , f 2 , … , f d } F\in \lbrace f_1,f_2,\dots,f_d \rbrace F{f1,f2,,fd} d d d是假设空间容量。损失函数为0-1损失。其泛化误差上界满足如下定理:

对任意 f ∈ F f\in F fF,以下不等式至少以概率 1 − δ , 0 < δ < 1 1-\delta, 0<\delta <1 1δ,0<δ<1成立:
R e x p ( f ) ≤ R e m p ( f ) + ϵ ( d , N , δ ) R_{exp}(f)\leq R_{emp}(f)+\epsilon(d,N,\delta) Rexp(f)Remp(f)+ϵ(d,N,δ)
其中, ϵ ( d , N , δ ) = 1 2 N ( l n d + l n 1 δ ) \epsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\mathrm{ln}d+\mathrm{ln}\frac{1}{\delta})} ϵ(d,N,δ)=2N1(lnd+lnδ1)

证明:
损失函数为0-1损失,因此损失函数的取值区间为 [ 0 , 1 ] [0,1] [0,1],从而对任意 f i ∈ F , R e m p ( f i ) ∈ [ 0 , 1 ] f_i \in F,R_{emp}(f_i) \in [0,1] fiF,Remp(fi)[0,1],由霍夫丁不等式可知:
P ( R e x p ( f ) − R e m p ( f ) ≥ ϵ ) ≤ e − 2 N 2 ϵ 2 P(R_{exp}(f)-R_{emp}(f)\geq \epsilon )\leq e^{-2N^2 \epsilon ^2} P(Rexp(f)Remp(f)ϵ)e2N2ϵ2
由于假设空间 F F F是一个有限集合,因此:
P ( ∃ f ∈ F : R e x p ( f ) − R e m p ( f ) ≥ ϵ ) = P ( ⋃ f ∈ F { R e x p ( f ) − R e m p ( f ) ≥ ϵ } ) ≤ ∑ f ∈ F P ( R e x p ( f ) − R e m p ( f ) ≥ ϵ ) ≤ d e − 2 N ϵ 2 \begin{aligned} P\left(\exists f\in F:R_{exp}(f)-R_{emp}(f)\geq\epsilon\right)&=P\left(\bigcup_{f\in F}\lbrace R_{exp}(f)-R_{emp}(f)\geq\epsilon\rbrace\right)\\ &\leq\sum_{f\in F}{P(R_{exp}(f)-R_{emp}(f)\geq\epsilon)}\\ &\leq de^{-2N\epsilon^2} \end{aligned} P(fF:Rexp(f)Remp(f)ϵ)=PfF{Rexp(f)Remp(f)ϵ}fFP(Rexp(f)Remp(f)ϵ)de2Nϵ2
等价于:
P ( ∀ f ∈ F : R e x p ( f ) − R e m p ( f ) < ϵ ) ≥ 1 − d e − 2 N ϵ 2 P\left(\forall f \in F: R_{exp}(f)-R_{emp}(f)< \epsilon \right)\geq 1-de^{-2N\epsilon ^2} P(fF:Rexp(f)Remp(f)<ϵ)1de2Nϵ2
δ = d e − 2 N ϵ 2 \delta=de^{-2N\epsilon ^2} δ=de2Nϵ2,则:
P ( ∀ f ∈ F : R e x p ( f ) < R e m p ( f ) + ϵ ) ≥ 1 − δ P\left(\forall f \in F: R_{exp}(f)<R_{emp}(f)+ \epsilon \right)\geq 1-\delta P(fF:Rexp(f)<Remp(f)+ϵ)1δ
即至少以概率 1 − δ 1-\delta 1δ R e x p ( f ) < R e m p ( f ) + ϵ R_{exp}(f)<R_{emp}(f)+ \epsilon Rexp(f)<Remp(f)+ϵ,其中 ϵ = 1 2 N ( l n d + l n 1 δ ) \epsilon=\sqrt{\frac{1}{2N}(\mathrm{ln}d+\mathrm{ln}\frac{1}{\delta})} ϵ=2N1(lnd+lnδ1)
命题得证。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值