(《机器学习》完整版系列)第12章 计算学习理论——12.7 定理的证明技巧(烧脑的数学,好玩的技巧)

本篇涉及较多的数学知识与证明技巧,值得有一定基础并希望进一步深造的同学认真琢磨。

定理12.5的证明

本小节以【西瓜书定理12.5】的证明为例,细化证明中用到的一些技巧。

我们先来理解一下【西瓜书定理12.5】: F : Z → [ 0 , 1 ] \mathcal{F} :\mathcal{Z} \to [0,1] F:Z[0,1]表示函数 f ∈ F f\in \mathcal{F} fF的值域为闭区间 [ 0 , 1 ] [0,1] [0,1] f ( z ) f(\boldsymbol{z}) f(z)中含两个变量:一个是自变量 z ∈ Z \boldsymbol{z}\in \mathcal{Z} zZ,一个是函数 f ∈ F f \in \mathcal{F} fF,对 f ( z ) f(\boldsymbol{z}) f(z)取数学期望 E z \mathbb{E} _{\boldsymbol{z}} Ez能消去变量 z \boldsymbol{z} z,但还有一个变量 f f f,故 E z [ f ( z ) ] \mathbb{E} _{\boldsymbol{z}}[f(\boldsymbol{z})] Ez[f(z)]是一个泛函数(注:以函数为变量的函数称为泛函,为区别,泛函在格式上是以中括号“[函数变量]”取代小括号“(变量)”,即这里用 E z [ f ( z ) ] \mathbb{E} _{\boldsymbol{z}}[f(\boldsymbol{z})] Ez[f(z)],而不是用 E z ( f ( z ) ) \mathbb{E} _{\boldsymbol{z}}(f(\boldsymbol{z})) Ez(f(z)))。

该定理给出了这个泛函在概率意义下的界。

为便于叙述,我们将【西瓜书p.281   ∼ \,\thicksim p.282】的“式子行”从上到下编号:(1)、(2)、(3)、 ⋯ \cdots ,如,式子“ ⩽ 1 m \leqslant \frac{1}{m} m1”的编号为(8),请编好号后,再对照阅读。

式(1)和(2)是要证的结论;式(3)和(4)是引入的记号;由(4)直接得(5);

数学中显然有
max ⁡ a ( x ) + max ⁡ b ( x ) ⩾ max ⁡   a ( x ) + b ( x ) \begin{align} \max a(x)+\max b(x) \geqslant \max\ a(x)+b(x) \tag{12.35} \end{align} maxa(x)+maxb(x)max a(x)+b(x)(12.35)
注: max ⁡   a ( x ) + b ( x ) \max\ a(x)+b(x) max a(x)+b(x)实际上为 max ⁡   ( a ( x ) + b ( x ) ) \max\ (a(x)+b(x)) max (a(x)+b(x))省去了括号,当 max ⁡   ( ∗ ) \max\ (*) max ()的左右无其他式子时,常省去括号为 max ⁡   ∗ \max\ * max ,否则不能省。 对 sup ⁡ , min ⁡ , inf ⁡ \sup,\min,\inf sup,min,inf也类似。

max ⁡ \max max换成 sup ⁡ \sup sup也成立,即
sup ⁡ a ( x ) + sup ⁡ b ( x ) ⩾ sup ⁡   a ( x ) + b ( x ) \begin{align} \sup a(x)+\sup b(x) \geqslant \sup\ a(x)+b(x) \tag{12.36} \end{align} supa(x)+supb(x)sup a(x)+b(x)(12.36)
读者可以得出 min ⁡ \min min inf ⁡ \inf inf的相应式子。

a ( x ) = E ^ Z − E ^ Z ′ ,   b ( x ) = E − E ^ Z a(x)=\hat E_Z-\hat E_{Z'},\, b(x)=\mathbb{E} -\hat E_Z a(x)=E^ZE^Z,b(x)=EE^Z,代入式(12.36)中,移项,则得到(6);

Z ′ Z' Z Z Z Z只有一个样例不同(前者含 z m ′ z_m' zm,后者含 z m z_m zm),由此得(7);

根据定理的前提条件知, f f f的值域为 [ 0 , 1 ] [0,1] [0,1],故有(8);

与(8)同理得(9);综合(8)(9)得(10);

c i = 1 m c_i=\frac{1}{m} ci=m1,则(10)说明 Φ ( Z ) \Phi(Z) Φ(Z)满足【西瓜书式(12.7)】成立的条件,故由【西瓜书式(12.7)】有
P ( Φ ( Z ) − E Z Φ ( Z ) ⩾ ϵ ) ⩽ exp ⁡ ( − 2 ϵ 2 ∑ i ( 1 m ) 2 ) \begin{align} P(\Phi(Z)-\mathop{\mathbb{E} }\limits_Z\Phi(Z)\geqslant \epsilon )\leqslant \exp(\frac{-2{\epsilon}^2 }{\sum_i(\frac{1}{m})^2}) \tag{12.37} \end{align} P(Φ(Z)ZEΦ(Z)ϵ)exp(i(m1)22ϵ2)(12.37)
令式(12.37)的右边为 δ \delta δ,则可解得
ϵ = ln ⁡ 1 δ 2 m \begin{align} %\epsilon \leqslant \sqrt{\frac{\ln \frac{1}{\delta }}} {2m} \epsilon = \sqrt{\frac{\ln \frac{1}{\delta }} {2m}} \tag{12.38} \end{align} ϵ=2mlnδ1 (12.38)
式(12.37)转化为
P ( Φ ( Z ) − E Z Φ ( Z ) ⩾ ϵ ) ⩽ δ P ( Φ ( Z ) − E Z Φ ( Z ) ⩽ ϵ ) ⩽ P ( Φ ( Z ) − E Z Φ ( Z ) < ϵ ) = 1 − P ( Φ ( Z ) − E Z Φ ( Z ) ⩾ ϵ ) ⩾ 1 − δ \begin{align} P(\Phi(Z)-\mathop{\mathbb{E} }\limits_Z\Phi(Z)\geqslant \epsilon ) & \leqslant \delta \notag \\ P(\Phi(Z)-\mathop{\mathbb{E} }\limits_Z\Phi(Z)\leqslant \epsilon ) & \leqslant P(\Phi(Z)-\mathop{\mathbb{E} }\limits_Z\Phi(Z)< \epsilon )\notag \\ & =1-P(\Phi(Z)-\mathop{\mathbb{E} }\limits_Z\Phi(Z)\geqslant \epsilon )\notag \\ & \geqslant 1- \delta \tag{12.39} \end{align} P(Φ(Z)ZEΦ(Z)ϵ)P(Φ(Z)ZEΦ(Z)ϵ)δP(Φ(Z)ZEΦ(Z)<ϵ)=1P(Φ(Z)ZEΦ(Z)ϵ)1δ(12.39)
其中, ϵ \epsilon ϵ δ \delta δ的关系由式(12.38)确定。

Φ ( Z ) ⩽ E Z Φ ( Z ) + ϵ \Phi(Z)\leqslant \mathop{\mathbb{E} }\limits_Z\Phi(Z)+ \epsilon Φ(Z)ZEΦ(Z)+ϵ至少以 1 − δ 1-\delta 1δ的概率成立,再结合式(12.38)即为(11);

对(4)式两边取 E Z \mathbb{E} _Z EZ,即得(12);

对(3)式两边取 E Z \mathbb{E} _Z EZ,即
E Z E ^ Z [ f ] = 1 m ∑ i = 1 m E Z [ f ( z i ) ] = 1 m ∑ i = 1 m E z i [ f ( z i ) ] (由独立性) = 1 m E z 1 [ f ( z 1 ) ] ∑ i = 1 m 1 (由同分布) = E z [ f ( z ) ] (更换字母) \begin{align} \mathbb{E}_Z\hat E_Z[f] & =\frac{1}{m}\sum_{i=1}^m\mathbb{E}_Z[f(\boldsymbol{z}_i)]\notag \\ & =\frac{1}{m}\sum_{i=1}^m\mathbb{E}_{\boldsymbol{z}_i}[f(\boldsymbol{z}_i)]\quad\text{(由独立性)}\notag \\ & =\frac{1}{m}\mathbb{E}_{\boldsymbol{z}_1}[f(\boldsymbol{z}_1)]\sum_{i=1}^m1\quad\text{(由同分布)}\notag \\ & =\mathbb{E}_{\boldsymbol{z}}[f(\boldsymbol{z})]\quad\text{(更换字母)} \tag{12.40} \end{align} EZE^Z[f]=m1i=1mEZ[f(zi)]=m1i=1mEzi[f(zi)](由独立性)=m1Ez1[f(z1)]i=1m1(由同分布)=Ez[f(z)](更换字母)(12.40)
为区别起见,我们调整式(12.40)中的 Z Z Z Z ′ ′ Z'' Z′′(注:【西瓜书】中用的为 Z ′ Z' Z,这里使用 Z ′ ′ Z'' Z′′以区别于(5)式的 Z ′ Z' Z),即
E Z ′ ′ E ^ Z ′ ′ [ f ] = E z [ f ( z ) ] \begin{align} \mathbb{E}_{Z''}\hat E_{Z''}[f] & =\mathbb{E}_{\boldsymbol{z}}[f(\boldsymbol{z})] \tag{12.41} \end{align} EZ′′E^Z′′[f]=Ez[f(z)](12.41)

因常数的期望为常数,以 Z ′ ′ Z'' Z′′为变量,则有
E Z ′ ′ E ^ Z [ f ] = E ^ Z [ f ] \begin{align} \mathbb{E}_{Z''}\hat E_Z[f]=\hat E_Z[f] \tag{12.42} \end{align} EZ′′E^Z[f]=E^Z[f](12.42)

式(12.41)、式(12.42)的右侧对应到(12)中,代入(12)即得(13);注意简写形式
E z [ f ( z ) ] = E [ f ( z ) ] = E [ f ] \mathbb{E}_{\boldsymbol{z}}[f(\boldsymbol{z})]=\mathbb{E}[f(\boldsymbol{z})]=\mathbb{E}[f] Ez[f(z)]=E[f(z)]=E[f]

为得(14),先证Jensen不等式【西瓜书式(12.4)】:

f ( x ) f(x) f(x)是凸函数,则
f ( λ x 1 + ( 1 − λ ) x 2 ) ⩽ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) f(\lambda x_1+(1-\lambda )x_2)\leqslant \lambda f(x_1)+(1-\lambda )f(x_2) f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2)
f ( λ ( x 1 − x 2 ) + x 2 ) ⩽ λ ( f ( x 1 ) − f ( x 2 ) ) + f ( x 2 ) f(\lambda (x_1-x_2)+x_2)\leqslant \lambda (f(x_1)-f(x_2))+f(x_2) f(λ(x1x2)+x2)λ(f(x1)f(x2))+f(x2)
( x 1 − x 2 ) f ( λ ( x 1 − x 2 ) + x 2 ) − f ( x 2 ) λ ( x 1 − x 2 ) ⩽ f ( x 1 ) − f ( x 2 ) (x_1-x_2)\frac{f(\lambda (x_1-x_2)+x_2)-f(x_2)}{\lambda (x_1-x_2)}\leqslant f(x_1)-f(x_2) (x1x2)λ(x1x2)f(λ(x1x2)+x2)f(x2)f(x1)f(x2)
λ → 0 \lambda \rightarrow 0 λ0,则
( x 1 − x 2 ) f ′ ( x 2 ) ⩽ f ( x 1 ) − f ( x 2 ) (x_1-x_2)f'(x_2)\leqslant f(x_1)-f(x_2) (x1x2)f(x2)f(x1)f(x2)
x 1 = x , x 2 = E ( x ) x_1=x,x_2=\mathbb{E} (x) x1=x,x2=E(x)
( x − E ( x ) ) f ′ ( E ( x ) ) ⩽ f ( x ) − f ( E ( x ) ) (x-\mathbb{E} (x))f'(\mathbb{E} (x))\leqslant f(x)-f(\mathbb{E} (x)) (xE(x))f(E(x))f(x)f(E(x))
取数学期望 E \mathbb{E} E
( E ( x ) − E ( x ) f ′ ( E ( x ) ) ⩽ E ( f ( x ) ) − f ( E ( x ) ) (\mathbb{E} (x)-\mathbb{E} (x)f'(\mathbb{E} (x))\leqslant \mathbb{E} (f(x))-f(\mathbb{E} (x)) (E(x)E(x)f(E(x))E(f(x))f(E(x))
即得
f ( E ( x ) ) ⩽ E ( f ( x ) ) \begin{align} f(\mathbb{E} (x))\leqslant \mathbb{E} (f(x)) \tag{12.43} \end{align} f(E(x))E(f(x))(12.43)
这即Jensen不等式【西瓜书式(12.4)】.

sup ⁡ \mathop{\sup} sup是凸函数(注:凸函数从函数图像来看,是“下凸”的,即若图像平移到 x x x轴上方,则凸向 x x x轴),由Jensen不等式有
sup ⁡ f ∈ F ( E Z ′ ′ [ ∗ ] ) ⩽ E Z ′ ′ ( sup ⁡ f ∈ F [ ∗ ] ) \begin{align} \mathop{\sup}\limits_{f \in \mathcal{F} }(\mathbb{E}_{Z{''}} [*]) \leqslant \mathbb{E}_{Z{''}} (\mathop{\sup}\limits_{f \in \mathcal{F} }[*]) \tag{12.44} \end{align} fFsup(EZ′′[])EZ′′(fFsup[])(12.44)
式(12.44)代入(13)得(14),其中,由独立性有 E Z , Z ′ ′ = E Z E Z ′ ′ \mathbb{E}_{Z,Z{''}}=\mathbb{E}_{Z}\mathbb{E}_{Z{''}} EZ,Z′′=EZEZ′′

(3)代入(14)即得(15);

引入记号
g σ ( Z ′ ′ , Z ) = d e f sup ⁡ f ∈ F 1 m ∑ i = 1 m σ i ( f ( z i ′ ′ ) − f ( z i ) ) \begin{align} g_{\sigma }(Z'',Z)\mathop{=} \limits^{\mathrm{def}} \mathop{\sup}\limits_{f \in \mathcal{F} }\frac{1}{m}\sum_{i=1}^m{\sigma}_i(f(z_i'')-f(z_i)) \tag{12.45} \end{align} gσ(Z′′,Z)=deffFsupm1i=1mσi(f(zi′′)f(zi))(12.45)
其中, σ = ( σ 1 , σ 2 , ⋯   , σ m ) , Z ′ ′ = ( z 1 ′ ′ , z 2 ′ ′ , ⋯   , z m ′ ′ ) , Z = ( z 1 , z 2 , ⋯   , z m ) \sigma =({\sigma }_1,{\sigma }_2,\cdots,{\sigma }_m),Z''=(z''_1,z''_2,\cdots,z''_m),Z=(z_1,z_2,\cdots,z_m) σ=(σ1,σ2,,σm),Z′′=(z1′′,z2′′,,zm′′),Z=(z1,z2,,zm)

作变换
( Z ′ ′ , Z ) ⟼ φ ( Z ‾ ′ ′ , Z ‾ ) : { 当 σ i = 1 时:不变,即 z ‾ i ′ ′ = z i ′ ′ , z ‾ i = z i 当 σ i = − 1 时:交换,即 z ‾ i ′ ′ = z i , z ‾ i = z i ′ ′ \begin{align} (Z'',Z)\mathop{ \longmapsto }\limits^{\varphi }(\overline{Z}'',\overline{Z}) : \begin{cases} \text{当${\sigma}_i=1$时:不变,即$\overline {z}''_i={z}''_i,\overline{z}_i=z_i$} \\ \text{当${\sigma}_i=-1$时:交换,即$\overline{z}''_i=z_i,\overline{z}_i={z}''_i$} \\ \end{cases} \tag{12.46} \end{align} (Z′′,Z)φ(Z′′,Z):{σi=1时:不变,即zi′′=zi′′,zi=ziσi=1时:交换,即zi′′=zi,zi=zi′′(12.46)


∑ i = 1 m σ i ( f ( z i ′ ′ ) − f ( z i ) ) = ∑ i : σ i = 1 σ i ( f ( z i ′ ′ ) − f ( z i ) ) + ∑ i : σ i = − 1 σ i ( f ( z i ′ ′ ) − f ( z i ) ) = ∑ i : σ i = 1 1 ⋅ ( f ( z i ′ ′ ) − f ( z i ) ) + ∑ i : σ i = − 1 ( − 1 ) ⋅ ( f ( z i ′ ′ ) − f ( z i ) ) = ∑ i : σ i = 1 1 ⋅ ( f ( z i ′ ′ ) − f ( z i ) ) + ∑ i : σ i = − 1 ( − 1 ) ⋅ ( f ( z i ) − f ( z i ′ ′ ) ) (由式(12.46)) = ∑ i : σ i = 1 1 ⋅ ( f ( z i ′ ′ ) − f ( z i ) ) + ∑ i : σ i = − 1 1 ⋅ ( f ( z i ′ ′ ) − f ( z i ) ) = ∑ i = 1 m 1 ⋅ ( f ( z i ′ ′ ) − f ( z i ) ) \begin{align} & \quad \sum_{i=1}^m{\sigma}_i(f(z_i'')-f(z_i)) \notag \\ & =\sum_{i:{\sigma}_i=1}{\sigma}_i(f(z_i'')-f(z_i))+\sum_{i:{\sigma}_i=-1}{\sigma}_i(f(z_i'')-f(z_i))\notag \\ & =\sum_{i:{\sigma}_i=1}1\cdot (f(z_i'')-f(z_i))+\sum_{i:{\sigma}_i=-1}(-1)\cdot (f(z_i'')-f(z_i))\notag \\ & =\sum_{i:{\sigma}_i=1}1\cdot (f(z_i'')-f(z_i))+\sum_{i:{\sigma}_i=-1}(-1)\cdot (f(z_i)-f(z_i''))\quad \text{(由式(12.46))}\notag \\ & =\sum_{i:{\sigma}_i=1}1\cdot (f(z_i'')-f(z_i))+\sum_{i:{\sigma}_i=-1}1\cdot (f(z_i'')-f(z_i))\notag \\ & = \sum_{i=1}^m1\cdot(f(z_i'')-f(z_i)) \tag{12.47} \end{align} i=1mσi(f(zi′′)f(zi))=i:σi=1σi(f(zi′′)f(zi))+i:σi=1σi(f(zi′′)f(zi))=i:σi=11(f(zi′′)f(zi))+i:σi=1(1)(f(zi′′)f(zi))=i:σi=11(f(zi′′)f(zi))+i:σi=1(1)(f(zi)f(zi′′))(由式(12.46)=i:σi=11(f(zi′′)f(zi))+i:σi=11(f(zi′′)f(zi))=i=1m1(f(zi′′)f(zi))(12.47)

将式(12.45)应用于式(12.47)两边,则有
g σ ( Z ′ ′ , Z ) = g 1 ( Z ‾ ′ ′ , Z ‾ ) \begin{align} g_{\sigma }(Z'',Z)=g_{\boldsymbol{1} }(\overline{Z}'',\overline{Z}) \tag{12.48} \end{align} gσ(Z′′,Z)=g1(Z′′,Z)(12.48)
其中, 1 = ( 1 , 1 , ⋯   , 1 ) \boldsymbol{1}=(1,1,\cdots,1) 1=(1,1,,1)

对式(12.48)取数学期望
E ( Z ′ ′ , Z ) g σ ( Z ′ ′ , Z ) = E ( Z ‾ ′ ′ , Z ‾ ) g 1 ( Z ‾ ′ ′ , Z ‾ ) \begin{align} \mathop{\mathbb{E} }\limits_{(Z'',Z)}g_{\sigma }(Z'',Z)=\mathop{\mathbb{E} }\limits_{(\overline{Z}'',\overline{Z})}g_{\boldsymbol{1} }(\overline{Z}'',\overline{Z}) \tag{12.49} \end{align} (Z′′,Z)Egσ(Z′′,Z)=(Z′′,Z)Eg1(Z′′,Z)(12.49)
这表明,虽然 σ \sigma σ变化,但式(12.49)是常数。

对式(12.49)取关于 σ \sigma σ的数学期望
E σ E ( Z ′ ′ , Z ) g σ ( Z ′ ′ , Z ) = E ( Z ‾ ′ ′ , Z ‾ ) g 1 ( Z ‾ ′ ′ , Z ‾ ) = E ( Z ′ ′ , Z ) g 1 ( Z ′ ′ , Z ) (变更字母) = ( 15 ) 式 \begin{align} \mathop{\mathbb{E} }\limits_{\sigma}\mathop{\mathbb{E} }\limits_{(Z'',Z)}g_{\sigma }(Z'',Z) & =\mathop{\mathbb{E} }\limits_{(\overline{Z}'',\overline{Z})}g_{\boldsymbol{1} }(\overline{Z}'',\overline{Z})\notag \\ & =\mathop{\mathbb{E} }\limits_{(Z'',Z)}g_{\boldsymbol{1} }(Z'',Z)\qquad \text{(变更字母)}\notag \\ & =(15)\text{式} \tag{12.50} \end{align} σE(Z′′,Z)Egσ(Z′′,Z)=(Z′′,Z)Eg1(Z′′,Z)=(Z′′,Z)Eg1(Z′′,Z)(变更字母)=(15)(12.50)
将此式反过来,则得(16)式;

再由式(12.36),则得(17)式;

由于 σ i {\sigma }_i σi − σ i -{\sigma }_i σi同分布,故
E σ ( 关于 ( − σ ) ) = E − σ ( 关于 ( − σ ) ) = E σ ( 关于 ( σ ) ) (变更字母) \begin{align} \mathop{\mathbb{E} }\limits_{\sigma}(\text{关于$(-{\sigma })$}) & =\mathop{\mathbb{E} }\limits_{-\sigma}(\text{关于$(-{\sigma })$})\notag \\ & =\mathop{\mathbb{E} }\limits_{\sigma}(\text{关于$({\sigma })$})\qquad \text{(变更字母)} \tag{12.51} \end{align} σE(关于(σ))=σE(关于(σ))=σE(关于(σ))(变更字母)(12.51)

对(17)中第一项的 z i ′ ′ z''_i zi′′作变更字母处理,变为 z i z_i zi,再结合式(12.51),则得(18)式;

(18)式应用【西瓜书的定义式(12.40)(12.41)】即得(19)式;

(12)至(19)实际上是论证了一个不等式
E Z [ Φ ( Z ) ] ⩽ 2 R m ( F ) \begin{align} \mathop{\mathbb{E} }\limits_{Z}[\Phi (Z)]\leqslant 2R_m(\mathcal{F} ) \tag{12.52} \end{align} ZE[Φ(Z)]2Rm(F)(12.52)

接下来考虑置信度 1 − δ 1- \delta 1δ
1 − δ ⩽ P ( Φ ( Z ) < ϵ + E Z Φ ( Z ) ) (由式(12.39)) ⩽ P ( Φ ( Z ) < ϵ + 2 R m ( F ) ) (由式(12.52)) = P ( sup ⁡ f ∈ F E [ f ] − E ^ Z [ f ] < ϵ + 2 R m ( F ) ) (由(4)式) = P ( sup ⁡ f ∈ F E [ f ] < ϵ + E ^ Z [ f ] + 2 R m ( F ) ) ⩽ P ( E [ f ] < ϵ + E ^ Z [ f ] + 2 R m ( F ) ) \begin{align} 1- \delta & \leqslant P(\Phi(Z)< \epsilon +\mathop{\mathbb{E} }\limits_Z\Phi(Z))\qquad \text{(由式(12.39))}\notag \\ & \leqslant P(\Phi(Z)< \epsilon +2R_m(\mathcal{F} ))\qquad \text{(由式(12.52))}\notag \\ & =P(\mathop{\sup}\limits_{f \in \mathcal{F} }\mathbb{E} [f]- \hat{E}_Z[f]< \epsilon +2R_m(\mathcal{F} ))\qquad \text{(由(4)式)}\notag \\ & =P(\mathop{\sup}\limits_{f \in \mathcal{F} }\mathbb{E} [f]< \epsilon + \hat{E}_Z[f]+2R_m(\mathcal{F} ))\notag \\ & \leqslant P(\mathbb{E} [f]< \epsilon + \hat{E}_Z[f]+2R_m(\mathcal{F} )) \tag{12.53} \end{align} 1δP(Φ(Z)<ϵ+ZEΦ(Z))(由式(12.39)P(Φ(Z)<ϵ+2Rm(F))(由式(12.52)=P(fFsupE[f]E^Z[f]<ϵ+2Rm(F))(由(4)式)=P(fFsupE[f]<ϵ+E^Z[f]+2Rm(F))P(E[f]<ϵ+E^Z[f]+2Rm(F))(12.53)
式(12.53)的左右对调即得(1)式,即【西瓜书式(12.42)】得证。

Φ ( Z ) \Phi (Z) Φ(Z)一样,验证 R ^ Z ( F ) \hat{R}_Z(\mathcal{F}) R^Z(F)具有(10)一样的式子
∣ R ^ Z ( F ) − R ^ Z ′ ( F ) ∣ ⩽ 1 m \begin{align} |\hat{R}_Z(\mathcal{F})-\hat{R}_{Z'}(\mathcal{F})|\leqslant \frac{1}{m} \tag{12.54} \end{align} R^Z(F)R^Z(F)m1(12.54)
其中, Z Z Z Z ′ Z' Z只有一个样本不同。

P ( f ( x 1 , x 2 , ⋯   , x m ) − E ( f ( x 1 , x 2 , ⋯   , x m ) ) ⩽ − ϵ ) ⩽ exp ⁡ ( − 2 ϵ 2 ∑ i c i 2 ) \begin{align} P(f(x_1,x_2,\cdots,x_m)-\mathbb{E}(f(x_1,x_2,\cdots,x_m))\leqslant-\epsilon )\leqslant \exp(\frac{-2{\epsilon}^2}{\sum_ic_i^2}) \tag{12.55} \end{align} P(f(x1,x2,,xm)E(f(x1,x2,,xm))ϵ)exp(ici22ϵ2)(12.55)
注:【西瓜书式(12.8)】应替换成不等式(12.55),因为由【西瓜书式(12.7)】及式(12.55)可得【西瓜书式(12.8)】,但由【西瓜书式(12.7)】【西瓜书式(12.8)】得不出式(12.55)。
f ( x 1 , x 2 , ⋯   , x m ) = R ^ Z f(x_1,x_2,\cdots,x_m)=\hat{R}_Z f(x1,x2,,xm)=R^Z应用McDiarmid不等式。

由式(12.55)即得
P ( R ^ Z − E R ^ Z ⩽ − ϵ ) ⩽ exp ⁡ ( − 2 ϵ 2 ∑ i c i 2 ) \begin{align} P(\hat{R}_Z-\mathbb{E}\hat{R}_Z\leqslant-\epsilon )\leqslant \exp(\frac{-2{\epsilon}^2}{\sum_ic_i^2}) \tag{12.56} \end{align} P(R^ZER^Zϵ)exp(ici22ϵ2)(12.56)
取任意的 δ , ( 0 < δ < 1 ) \delta, (0<\delta <1) δ,(0<δ<1),令式(12.56)的右侧为 δ \delta δ解出 ϵ \epsilon ϵ,即与式(12.38)类似,不同点是: 1 δ \frac{1}{\delta } δ1变为 2 δ \frac{2}{\delta } δ2

即得
P ( R ^ Z − R m ⩽ − ϵ ) ⩽ δ P ( R m ⩾ R ^ Z + ϵ ) ⩾ 1 − δ \begin{align} P(\hat{R}_Z-R_m\leqslant-\epsilon )\leqslant \delta \notag \\ P(R_m\geqslant\hat{R}_Z+\epsilon )\geqslant 1-\delta \notag \end{align} P(R^ZRmϵ)δP(RmR^Z+ϵ)1δ
这即为(20)式;

以至少 1 − δ 1-\delta 1δ概率成立的式子( 0 < δ < 1 0<\delta<1 0<δ<1,任意小),就是“几乎”成立,我们就认为它“成立”好了,现在,我们有了三个成立的式子((11)(19)(20)),即
{ Φ ( Z ) ⩽ E Z [ Φ ( Z ) ] + ϵ E Z [ Φ ( Z ) ] ⩽ 2 R m ( F ) R m ( F ) ⩽ R ^ Z ( F ) + ϵ \begin{align} \begin{cases} \Phi (Z)\leqslant\mathop{\mathbb{E} }\limits_{Z}[\Phi (Z)]+\epsilon \\ \mathop{\mathbb{E} }\limits_{Z}[\Phi (Z)]\leqslant 2R_m(\mathcal{F} ) \\ R_m(\mathcal{F} )\leqslant\hat{R}_Z(\mathcal{F} )+\epsilon \\ \end{cases} \tag{12.57} \end{align} Φ(Z)ZE[Φ(Z)]+ϵZE[Φ(Z)]2Rm(F)Rm(F)R^Z(F)+ϵ(12.57)
这三式通过代入消元,得
Φ ( Z ) ⩽ 2 R ^ Z ( F ) + 3 ϵ \begin{align} \Phi (Z)\leqslant 2\hat{R}_Z(\mathcal{F} )+3\epsilon \tag{12.58} \end{align} Φ(Z)2R^Z(F)+3ϵ(12.58)
这即为(22)式;

上述对(22)式的推理并不严格,但可以让我们快速思考。 为严格证明(22)式,我们先做点数学知识准备:

我们知道,不等式有传递性,即
{   a ⩽ b   b ⩽ c ⟹   a ⩽ c \begin{align} \begin{cases} \, a\leqslant b \\ \, b \leqslant c \\ \end{cases} \Longrightarrow \, a\leqslant c \tag{12.59} \end{align} {abbcac(12.59)

那么,对“几乎”成立的不等式,是不是也有传递性?事实上,也有传递性
{   P ( a ⩽ b ) ⩾ 1 − δ   P ( b ⩽ c ) ⩾ 1 − δ ⟹   P ( a ⩽ c ) ⩾ 1 − 2 δ \begin{align} \begin{cases} \, P(a\leqslant b)\geqslant 1-\delta \\ \, P(b \leqslant c) \geqslant 1-\delta \\ \end{cases} \Longrightarrow \, P(a\leqslant c)\geqslant 1-2\delta \tag{12.60} \end{align} {P(ab)1δP(bc)1δP(ac)12δ(12.60)
下面来证明这一有趣的结论。

式(12.59)即
( a ⩽ b ) ∩ ( b ⩽ c ) ⊆   ( a ⩽ c ) (a\leqslant b)\cap (b \leqslant c) \subseteq \, (a\leqslant c) (ab)(bc)(ac)
由该蕴含关系,转换成事件发生的概率,则有
P ( ( a ⩽ b ) ∩ ( b ⩽ c ) ) ⩽ P ( a ⩽ c ) \begin{align} P((a\leqslant b)\cap (b \leqslant c)) \leqslant P(a\leqslant c) \tag{12.61} \end{align} P((ab)(bc))P(ac)(12.61)
由概率加法公式,有
P ( ( a ⩽ b ) ∩ ( b ⩽ c ) ) = P ( a ⩽ b ) + P ( b ⩽ c ) − P ( ( a ⩽ b ) ∪ ( b ⩽ c ) ) ⩾ ( 1 − δ ) + ( 1 − δ ) − P ( ( a ⩽ b ) ∪ ( b ⩽ c ) ) (由式(12.60)左侧条件) ⩾ ( 1 − δ ) + ( 1 − δ ) − 1 = 1 − 2 δ \begin{align} & \quad P((a\leqslant b)\cap (b \leqslant c)) \notag \\ & =P(a\leqslant b)+P (b \leqslant c)-P((a\leqslant b)\cup (b \leqslant c))\notag \\ & \geqslant (1-\delta)+(1-\delta)-P((a\leqslant b)\cup (b \leqslant c))\quad \text{(由式(12.60)左侧条件)}\notag \\ & \geqslant (1-\delta)+(1-\delta)-1\notag \\ & =1-2\delta \tag{12.62} \end{align} P((ab)(bc))=P(ab)+P(bc)P((ab)(bc))(1δ)+(1δ)P((ab)(bc))(由式(12.60)左侧条件)(1δ)+(1δ)1=12δ(12.62)
由式(12.61)、式(12.62),即得式(12.60)右侧之结论:
P ( a ⩽ c ) ⩾ 1 − 2 δ \begin{align} P(a\leqslant c)\geqslant 1-2\delta \tag{12.63} \end{align} P(ac)12δ(12.63)
注意,该结论是含 2 δ 2\delta 2δ,当式(12.60)左侧的两条件中有一个为“完全”成立时,则 2 δ 2\delta 2δ变为 δ \delta δ,即
{   P ( a ⩽ b ) = 1   P ( b ⩽ c ) ⩾ 1 − δ ⟹   P ( a ⩽ c ) ⩾ 1 − δ \begin{align} \begin{cases} \, P(a\leqslant b)= 1 \\ \, P(b \leqslant c) \geqslant 1-\delta \\ \end{cases} \Longrightarrow \, P(a\leqslant c)\geqslant 1-\delta \tag{12.64} \end{align} {P(ab)=1P(bc)1δP(ac)1δ(12.64)
其中, P ( a ⩽ b ) = 1 P(a\leqslant b)= 1 P(ab)=1即表示不等式 a ⩽ b a\leqslant b ab

现在我们可以对(22)式进行严格证明了,将已证的(11)(19)(20)列在一起
{ P ( Φ ( Z ) − ϵ ⩽ E Z [ Φ ( Z ) ] ) ⩾ 1 − δ E Z [ Φ ( Z ) ] ⩽ 2 R m ( F ) P ( R m ( F ) ⩽ R ^ Z ( F ) + ϵ ) ⩾ 1 − δ \begin{align} \begin{cases} P(\Phi (Z)-\epsilon\leqslant\mathop{\mathbb{E} }\limits_{Z}[\Phi (Z)])\geqslant 1-\delta \\ \mathop{\mathbb{E} }\limits_{Z}[\Phi (Z)]\leqslant 2R_m(\mathcal{F} ) \\ P(R_m(\mathcal{F} )\leqslant\hat{R}_Z(\mathcal{F} )+\epsilon) \geqslant 1-\delta \\ \end{cases} \tag{12.65} \end{align} P(Φ(Z)ϵZE[Φ(Z)])1δZE[Φ(Z)]2Rm(F)P(Rm(F)R^Z(F)+ϵ)1δ(12.65)
将传递性式(12.64)应用于式(12.65)的第一、二式,则有
P ( Φ ( Z ) − ϵ ⩽ 2 R m ( F ) ) ⩾ 1 − δ \begin{align} P(\Phi (Z)-\epsilon\leqslant 2R_m(\mathcal{F}))\geqslant 1-\delta \tag{12.66} \end{align} P(Φ(Z)ϵ2Rm(F))1δ(12.66)
式(12.65)的第三式,改写一下:
P ( 2 R m ( F ) ⩽ 2 R ^ Z ( F ) + 2 ϵ ) ⩾ 1 − δ \begin{align} P(2R_m(\mathcal{F} )\leqslant 2\hat{R}_Z(\mathcal{F} )+2\epsilon) \geqslant 1-\delta \tag{12.67} \end{align} P(2Rm(F)2R^Z(F)+2ϵ)1δ(12.67)
将传递性式(12.60)应用于式(12.66)、式(12.67),则有
P ( Φ ( Z ) − ϵ ⩽ 2 R ^ Z ( F ) + 2 ϵ ) ⩾ 1 − 2 δ \begin{align} P(\Phi (Z)-\epsilon\leqslant 2\hat{R}_Z(\mathcal{F} )+2\epsilon)\geqslant 1-2\delta \tag{12.68} \end{align} P(Φ(Z)ϵ2R^Z(F)+2ϵ)12δ(12.68)

P ( Φ ( Z ) ⩽ 2 R ^ Z ( F ) + 3 ϵ ) ⩾ 1 − 2 δ \begin{align} P(\Phi (Z)\leqslant 2\hat{R}_Z(\mathcal{F} )+3\epsilon)\geqslant 1-2\delta \tag{12.69} \end{align} P(Φ(Z)2R^Z(F)+3ϵ)12δ(12.69)
比较式(12.69)与(22),需要进行微调:令 δ ′ = 2 δ {\delta}'=2\delta δ=2δ,这时,式(12.65)的第三、第一式及式(12.69),三式变为
{ P ( R m ( F ) ⩽ R ^ Z ( F ) + ϵ ) ⩾ 1 − δ ′ 2 P ( Φ ( Z ) ⩽ E Z [ Φ ( Z ) ] + ϵ ) ⩾ 1 − δ ′ 2 P ( Φ ( Z ) ⩽ 2 R ^ Z ( F ) + 3 ϵ ) ⩾ 1 − δ ′ \begin{align} \begin{cases} P(R_m(\mathcal{F} )\leqslant\hat{R}_Z(\mathcal{F} )+\epsilon) \geqslant 1-\frac{{\delta}'}{2} \\ P(\Phi (Z)\leqslant\mathop{\mathbb{E} }\limits_{Z}[\Phi (Z)]+\epsilon)\geqslant 1-\frac{{\delta}'}{2} \\ P(\Phi (Z)\leqslant 2\hat{R}_Z(\mathcal{F} )+3\epsilon)\geqslant 1-{\delta}' \\ \end{cases} \tag{12.70} \end{align} P(Rm(F)R^Z(F)+ϵ)12δP(Φ(Z)ZE[Φ(Z)]+ϵ)12δP(Φ(Z)2R^Z(F)+3ϵ)1δ(12.70)
这时由式(12.38) 有
ϵ = ln ⁡ 2 δ ′ 2 m \begin{align} \epsilon = \sqrt{\frac{\ln \frac{2}{{\delta}' }} {2m}} \tag{12.71} \end{align} ϵ=2mlnδ2 (12.71)

式(12.71)代入式(12.70)并调整字母( δ ′ {\delta}' δ改为 δ \delta δ),则得到(20)(21)(22);

由(4)式,式(12.70)的第三式变为
P ( sup ⁡ f ∈ F E [ f ] ⩽ E ^ Z ( f ) + 2 R ^ Z ( F ) + 3 ϵ ) ⩾ 1 − δ \begin{align} P(\mathop{\sup}\limits_{f \in \mathcal{F} }\mathbb{E} [f]\leqslant \hat{E}_Z(f)+2\hat{R}_Z(\mathcal{F} )+3\epsilon)\geqslant 1-{\delta} \tag{12.72} \end{align} P(fFsupE[f]E^Z(f)+2R^Z(F)+3ϵ)1δ(12.72)

(3)式代入式(12.72)
P ( sup ⁡ f ∈ F E [ f ] ⩽ (2)式的右边 ) ⩾ 1 − δ \begin{align} P(\mathop{\sup}\limits_{f \in \mathcal{F} }\mathbb{E} [f]\leqslant \text{(2)式的右边})\geqslant 1-{\delta} \tag{12.73} \end{align} P(fFsupE[f](2)式的右边)1δ(12.73)


E [ f ] ⩽ sup ⁡ f ∈ F E [ f ] \begin{align} \mathbb{E} [f]\leqslant \mathop{\sup}\limits_{f \in \mathcal{F} }\mathbb{E} [f] \tag{12.74} \end{align} E[f]fFsupE[f](12.74)
将传递性式(12.64)应用于式(12.73)、式(12.74),则有
P ( E [ f ] ⩽ (2)式的右边 ) ⩾ 1 − δ \begin{align} P(\mathbb{E} [f]\leqslant \text{(2)式的右边})\geqslant 1-{\delta} \tag{12.75} \end{align} P(E[f](2)式的右边)1δ(12.75)
即为(2)式,即【西瓜书式(12.43)】得证。

其他证明

(1)【西瓜书引理12.1】的证明

作变换
z = { 1 , ( h ( x ) ≠ y ) 0 , ( h ( x ) = y ) \begin{align} \boldsymbol{z}= \begin{cases} 1,\quad (h(\boldsymbol{x})\neq y) \\ 0,\quad (h(\boldsymbol{x})= y) \\ \end{cases} \tag{12.76} \end{align} z={1,(h(x)=y)0,(h(x)=y)(12.76)
X \mathcal{X} X中的分布为 D \mathcal{D} D,将式(12.76)中的每个1视为 1 x 1_{\boldsymbol{x}} 1x,每个0视为 0 x 0_{\boldsymbol{x}} 0x,即与 x \boldsymbol{x} x相关的,这样,变换后的空间 Z \mathcal{Z} Z中的分布也为 D \mathcal{D} D,则
E ^ ( h ) = 1 m ∑ i = 1 m z i \hat{E}(h)=\frac{1}{m}\sum_{i=1}^m\boldsymbol{z}_i E^(h)=m1i=1mzi
E ( h ) = P z ∼ D ( z = 1 ) = 1 × P z ∼ D ( z = 1 ) + 0 × P z ∼ D ( z = 0 ) = E ( z ) \begin{align*} {E}(h) & =P_{\boldsymbol{z}\thicksim \mathcal{D}}(\boldsymbol{z}=1) \\ & =1\times P_{\boldsymbol{z}\thicksim \mathcal{D}}(\boldsymbol{z}=1)+0\times P_{\boldsymbol{z}\thicksim \mathcal{D}}(\boldsymbol{z}=0) \\ & =\mathbb{E} (\boldsymbol{z}) \end{align*} E(h)=PzD(z=1)=1×PzD(z=1)+0×PzD(z=0)=E(z)
z 1 , z 2 , ⋯   , z m \boldsymbol{z}_1,\boldsymbol{z}_2,\cdots,\boldsymbol{z}_m z1,z2,,zm都与 z \boldsymbol{z} z独立同分布,故
E ( z 1 ) = E ( z 2 ) = ⋯ = E ( z m ) = E ( z ) \mathbb{E} (\boldsymbol{z}_1)=\mathbb{E} (\boldsymbol{z}_2)=\cdots=\mathbb{E}( \boldsymbol{z}_m)=\mathbb{E} (\boldsymbol{z}) E(z1)=E(z2)==E(zm)=E(z)
将此式代入Hoeffding不等式即得。

(2)【西瓜书推论12.1】的证明

已知【西瓜书引理12.1式(12.17)】,令其右边= δ \delta δ,解出 ϵ \epsilon ϵ,代入【西瓜书式(12.17)】,整理即得【西瓜书推论12.1】的(12.18)式。

(3)【西瓜书定理12.9】的证明

(i)证明方法及过程与【西瓜书定理12.4】类似;

(ii)在用到Hoeffding不等式处,令 x i = ℓ ( g , z i ) x_i=\ell (g,z_i) xi=(g,zi),即得到【西瓜书引理12.1及推论12.1】的类比结论;

(iii)将 E ( h ) E(h) E(h)视为特殊的 ℓ ( L , D ) \ell (\mathfrak{L} ,\mathcal{D} ) (L,D),则可过渡到 E ( h ) − E ( g ) ⩽ ϵ E(h)-E(g)\leqslant \epsilon E(h)E(g)ϵ
从而得到可学习性。

(4)【西瓜书例12.1、例12.2】的推广: R d \mathbb{R} ^d Rd空间中线性超平面构成的假设空间,其VC维是 d + 1 d+1 d+1

证明分为两大步骤。

(一)用数学归纳法证:存在一个含 d + 1 d+1 d+1个样本的 D D D能被打散:

(i)由【西瓜书例12.1、例12.2】知, d = 1 , 2 d=1,2 d=1,2时成立;

(ii)假设 d = k , k > 2 d=k,k>2 d=k,k>2时成立。

d = k + 1 d=k+1 d=k+1时,由于是线性空间(线性超平面),故存在标准正交基
{ ε 1 , ε 2 , ⋯   , ε k , ε k + 1 } \{\boldsymbol{\varepsilon}_1,\boldsymbol{\varepsilon}_2,\cdots,\boldsymbol{\varepsilon}_k,\boldsymbol{\varepsilon}_{k+1}\} {ε1,ε2,,εk,εk+1}
该空间为这组标准正交基张成的超平面 π k + 1 {\pi}_{k+1} πk+1。 其中, { ε 1 , ε 2 , ⋯   , ε k } \{\boldsymbol{\varepsilon}_1,\boldsymbol{\varepsilon}_2,\cdots,\boldsymbol{\varepsilon}_k\} {ε1,ε2,,εk},张成超平面 π k {\pi}_{k} πk

由假设知,存在一个能被打散的样本集 D k D_k Dk,它含有 k + 1 k+1 k+1个样本。 又由12.5 无限假设空间表12.1知,用于打散 D k D_k Dk h i h_i hi 2 k + 1 2^{k+1} 2k+1个(即 i = 0 , 1 , 2 , ⋯   , 2 k + 1 − 1 i=0,1,2,\cdots,2^{k+1}-1 i=0,1,2,,2k+11),每个 h i h_i hi均对应一个“划分线”,它为 π k {\pi}_{k} πk上的 k − 1 k-1 k1维超平面(例如【西瓜书例12.2】中图12.1(a)的划分红线),不妨将这个超平面仍记为 h i h_i hi。 在轴 ε k + 1 \boldsymbol{\varepsilon}_{k+1} εk+1上任取两点 P P P Q Q Q,则 h i h_i hi P P P张成一个 k k k维超平面,记为 h i P h_i^P hiP,同样有 h i Q h_i^Q hiQ

h i h_i hi打散 D k D_k Dk,设其将 D k D_k Dk对分为 S i + S_i^+ Si+ S i − S_i^- Si,记为 { S + } ⋃ { S − } \{ S^+\}\bigcup \{S^-\} {S+}{S},取 P P P Q Q Q的中间一点(如,中点) x \boldsymbol{x} x,它的标记有正负两种情况,添加这个点即形成 { x + ∪ S + } ⋃ { S − } \{\boldsymbol{x}^+\cup S^+\}\bigcup \{S^-\} {x+S+}{S} { S + } ⋃ { x − ∪ S − } \{ S^+\}\bigcup \{\boldsymbol{x}^-\cup S^-\} {S+}{xS}。 这两种情况分别被 h i P h_i^P hiP h i Q h_i^Q hiQ对分。 即存在 D k + 1 = { x } ⋃ D k D_{k+1}=\{\boldsymbol{x}\}\bigcup D_k Dk+1={x}Dk能被打散,且 D k + 1 D_{k+1} Dk+1 ( k + 1 ) + 1 (k+1)+1 (k+1)+1个样本。

由数学归纳法原理结论得证。

(二)用反证法:证明其VC维不可能高于 d + 1 d+1 d+1

假设 d d d维超平面中存在 d + 2 d+2 d+2个样本的 D D D能被 H \mathcal{H} H打散,设
D = { x 1 , x 2 , ⋯   , x d , x d + 1 , x d + 2 } D=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_d,\boldsymbol{x}_{d+1},\boldsymbol{x}_{d+2}\} D={x1,x2,,xd,xd+1,xd+2}
由于维度是 d d d,故 D D D中线性无关向量组中的向量个数不超过 d d d个,我们分两种情况讨论:

(i) D D D中最大线性无关向量组中的向量个数为 d d d,对 D D D中向量进行排序后设前 d d d个线性无关,因此,可以以 ( x 1 , x 2 , ⋯   , x d ) (\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_d) (x1,x2,,xd)作为该 d d d维空间的一组基,则 D D D以列向量的形式表示为如下表(矩阵)

其中,左边列为基向量组,表体中左侧为单位矩阵,右侧两列分别表示为
x d + 1 = ∑ i = 1 d q i x i \boldsymbol{x}_{d+1}=\sum_{i=1}^dq_i\boldsymbol{x}_i xd+1=i=1dqixi x d + 2 = ∑ i = 1 d r i x i \boldsymbol{x}_{d+2}=\sum_{i=1}^dr_i\boldsymbol{x}_i xd+2=i=1drixi

将上述矩阵(表体)删去第1列和第1行,形成:
D ′ = ( x 2 ′ , x 3 ′ , ⋯   , x d ′ , x d + 1 ′ , x d + 2 ′ ) D'=(\boldsymbol{x}'_2,\boldsymbol{x}'_3,\cdots,\boldsymbol{x}'_{d},\boldsymbol{x}'_{d+1},\boldsymbol{x}'_{d+2}) D=(x2,x3,,xd,xd+1,xd+2)
其中 D ′ D' D中的 x i ′ \boldsymbol{x}'_i xi D D D中的 x i \boldsymbol{x}_i xi少第一个分量(对应第一行,被删去了),则: D ′ D' D d − 1 d-1 d1维、前 d − 1 d-1 d1个向量为基、包含 d + 1 d+1 d+1个样本( d − 1 d-1 d1维空间中的样本)。

由假设 D D D能被 H \mathcal{H} H打散,即 H \mathcal{H} H能实现 D D D的所有对分,然而,“ D ′ D' D的所有对分”为“ D D D的所有对分”的子集(因删去了 x 1 \boldsymbol{x}_1 x1),即 H \mathcal{H} H能实现 D ′ D' D的所有对分,也即 H \mathcal{H} H能打散 D ′ D' D

上述即证明了:若 d d d维超平面中有样本数为 d + 2 d+2 d+2 D D D能被 H \mathcal{H} H打散,则 d − 1 d-1 d1维超平面中就有样本数为 d + 1 d+1 d+1 D ′ D' D能被 H \mathcal{H} H打散。 反复利用这个结论降维,则降至 d = 3 d=3 d=3时,再用一次该结论,就有:( d − 1 = 2 d-1=2 d1=2)2维空间中含( d + 1 = 4 d+1=4 d+1=4)4个样本的数据集 D ′ D' D能被打散,这与【西瓜书例12.2】矛盾,因此,这种情况不可能发生。

(ii) D D D中最大线性无关向量组中的向量个数小于 d d d,设为 d ′ d' d,取 D D D中最大线性无关向量组 ( x 1 , x 2 , ⋯   , x d ′ ) (\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_{d'}) (x1,x2,,xd) D D D中另外两向量 x d ′ + 1 , x d ′ + 2 \boldsymbol{x}_{d'+1},\boldsymbol{x}_{d'+2} xd+1,xd+2,组成:
D 1 = ( x 1 , x 2 , ⋯   , x d ′ , x d ′ + 1 , x d ′ + 2 ) D_1=(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_{d'},\boldsymbol{x}_{d'+1},\boldsymbol{x}_{d'+2}) D1=(x1,x2,,xd,xd+1,xd+2)
则原假设变为: d ′ d' d维超平面中存在 d ′ + 2 d'+2 d+2个样本的 D 1 D_1 D1能被 H \mathcal{H} H打散,对此应用上述(1),产生矛盾,因此,这种情况不可能发生。

由(i)(ii)得(二)。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:12.6 Rademacher复杂度
下一篇:13.1 生成式方法详解(样本数据都是由同一个潜在的模型“生成”的)

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值