Foundations of Machine Learning 2nd——第三章(二)growth fuction和 VC-Dimension

前言

我们上篇文章讲了对于映射集 H H H无限的情况,可以使用拉德马赫复杂度来表示其generalization error边界,然而拉德马赫复杂度的计算十分困难,因此本节引入VC维的概念来使得这个边界可以在现实中被计算出来,在介绍VC维之前我们先介绍growth function这个先验知识(VC维的generalization bound需要以growth function作为中间媒介)。

Growth function

growth function中文名翻译成生长函数…我总感觉像生物用语。。所以还是叫英文名字吧。。
先来看看他的定义:
对于映射集 H H H的growth function: Π H ( m ) : N → N \Pi_{H}(m):N\rightarrow N ΠH(m):NN,定义如下:
∀ m ∈ N , Π H ( m ) = max ⁡ { x 1 , . . . x m } ⊂ X ∣ { h ( x 1 ) , . . . , h ( x m ) : h ∈ H } ∣ \forall m\in N, \Pi_H(m) = \max\limits_{\{x_1,...x_m\}\subset X}|\{h(x_1),...,h(x_m):h\in H\}| mN,ΠH(m)={x1,...xm}Xmax{h(x1),...,h(xm):hH}

解释:我们先引入一个概念: d i c h o t o m y dichotomy dichotomy。它的定义如下:对于一个映射 h ∈ H h\in H hH,将 h h h作用在样本集 { x 1 , . . . , x m } \{x_1,...,x_m\} {x1,...,xm}上会产生一个分类结果(我们假设是二分类),这个结果可能是 { 0 , 1 , . . . , 1 } \{0,1,...,1\} {0,1,...,1}。我们把这样的一种分类结果称为 d i c h o t o m y dichotomy dichotomy。那么,对于一个样本集来说,将 H H H里所有的映射都作用在上面时,最多 2 m 2^m 2m种结果,因为也许有的结果在当前的问题里肯定不会出现(后面我们会举例子),所以 d i c h o t o m y dichotomy dichotomy的个数也有可能小于 2 m 2^m 2m。那么 H H H的growth function要找的就是能产生 d i c h o t o m y dichotomy dichotomy数量最多的一个大小为 m m m样本集,他的 d i c h o t o m y dichotomy dichotomy数量即为 Π H ( m ) \Pi_H(m) ΠH(m)

所以,growth function给我们提供了另一种计算映射集 H H H的丰富度的方法。

那么如何用growth function替代拉德马赫复杂度在约束边界上的位置呢?
需要用到一个马萨特引理(Massart’s Lemma):

引理1 Massart’s Lemma

定义:令 A ⊂ R m A\subset R^m ARm是一个有限集,设 r = m a x x ∈ A ∥ x ∥ 2 r=max_{x\in A}\|x\|_2 r=maxxAx2,下式成立:
E σ [ 1 m sup ⁡ x ∈ A ∑ i = 1 m σ i x i ] ≤ r 2 log ⁡ ∣ A ∣ m \mathop{E}\limits_\sigma[\frac{1}{m}\sup\limits_{x\in A}\sum_{i=1}^m\sigma_ix_i]\leq\frac{r\sqrt{2\log|A|}}{m} σE[m1xAsupi=1mσixi]mr2logA
σ i \sigma_i σi是独立同分布的随机变量,取值为 { 1 , − 1 } \{1,-1\} {1,1} x i x_i xi是向量 x x x的第i项。

证明:

需要介绍一个最大不等式定理和推论:
最大不等式定理:
X 1 , . . . , X n X_1,...,X_n X1,...,Xn n ≥ 1 n\geq1 n1的实值随机变量,对于所有的 j ∈ [ n ] j\in[n] j[n] t > 0 t>0 t>0,如果对于一些 r > 0 r>0 r>0满足: E [ e t X j ] ≤ e t 2 r 2 / 2 E[e^{tX_j}]\leq e^{t^2r^2/2} E[etXj]et2r2/2,那么下列不等式成立:
E [ max ⁡ j ∈ [ n ] X j ] ≤ r 2 log ⁡ n E[\max\limits_{j\in[n]}X_j]\leq r\sqrt{2\log n} E[j[n]maxXj]r2logn
证明:
对于任意的 t > 0 t>0 t>0,通过指数函数的凹性和杰森不等式,下式成立:
e t E [ m a x j ∈ [ n ] X j ] ≤ E [ e t max ⁡ j ∈ [ n ] X j ] = E [ max ⁡ j ∈ [ n ] e t X j ] ≤ E [ ∑ j ∈ [ n ] e t X j ] ≤ n e t 2 r 2 2 e^{tE[max_{j\in[n]}X_j]}\leq E[e^{t\max_{j\in[n]}X_j}]=E[\max\limits_{j\in[n]}e^{tX_j}]\leq E[\sum\limits_{j\in[n]}e^{tX_j}]\leq ne^{\frac{t^2r^2}{2}} etE[maxj[n]Xj]E[etmaxj[n]Xj]=E[j[n]maxetXj]E[j[n]etXj]ne2t2r2
第一步转换利用了指数函数的凹性+杰森不等式

补充杰森不等式:
f ( x ) f(x) f(x)是区间[a,b]上的下凹函数,对于人意的 x 1 , x 2 . . . x n ∈ [ a , b ] x_1,x_2...x_n\in[a,b] x1,x2...xn[a,b],有不等式:
∑ i = 1 n f ( x i ) n ≥ f ( ∑ i = 1 n x i n ) \frac{\sum_{i=1}^nf(x_i)}{n}\geq f(\frac{\sum_{i=1}^nx_i}{n}) ni=1nf(xi)f(ni=1nxi)
其加权形式为:
在原条件上,且 a 1 + a 2 + . . . + a n = 1 a_1+a2+...+a_n=1 a1+a2+...+an=1,且 a i a_i ai都为正数,有:
f ( ∑ i = 1 n a i x i ) ≤ ∑ i = 1 n a i f ( x i ) f(\sum_{i=1}^na_ix_i)\leq\sum_{i=1}^na_if(x_i) f(i=1naixi)i=1naif(xi)

最大不等式推论:
X 1 , . . , X n X_1,..,X_n X1,..,Xn n ≥ 1 n\geq1 n1的实值随机变量,对于所有的 j ∈ [ n ] j\in[n] j[n] X j = ∑ i = 1 m Y i j X_j=\sum_{i=1}^mY_{ij} Xj=i=1mYij,对于每一个固定的 j ∈ [ n ] j\in[n] j[n] Y i j Y_{ij} Yij都是独立的零均值变量,取值在 [ − r i , r i ] [-r_i,r_i] [ri,ri],对一些 r i > 0 r_i>0 ri>0,下列不等式成立:
E [ max ⁡ j ∈ [ n ] X j ] ≤ r 2 log ⁡ n E[\max\limits_{j\in[n]}X_j]\leq r\sqrt{2\log n} E[j[n]maxXj]r2logn
其中 r = ∑ i = 1 m r i 2 r=\sqrt{\sum_{i=1}^mr_i^2} r=i=1mri2

证明:
由于 E [ e t X j ] = E [ Π i = 1 m e t Y i j ] = Π i = 1 m E [ e t Y i j ] ≤ Π i = 1 m e t 2 r j 2 2 = e t 2 r 2 2 E[e^{tX_j}]=E[\mathop{\Pi}\limits_{i=1}^me^{tY_{ij}}]=\mathop{\Pi}\limits_{i=1}^mE[e^{tY_{ij}}]\leq \mathop{\Pi}\limits_{i=1}^m e^{\frac{t^2r_j^2}{2}}=e^{\frac{t^2r^2}{2}} E[etXj]=E[i=1ΠmetYij]=i=1ΠmE[etYij]i=1Πme2t2rj2=e2t2r2
倒第二个转换用了霍夫丁引理:

X X X表示 E [ X ] = 0 E[X]=0 E[X]=0的随机变量,且 a ≤ X ≥ b , b > a a\leq X \geq b, b>a aXb,b>a,对于任意的 t > 0 t>0 t>0,都有:
E [ e t X ] ≤ e t 2 ( b − a ) 2 8 E[e^{tX}]\leq e^{\frac{t^2(b-a)^2}{8}} E[etX]e8t2(ba)2

所以能够利用最大不等式来得到该引理。

终于把最大不等式给说完了!现在目光切回到Massart’s Lemma!
如果把Massart’s Lemma中的 σ i x i \sigma_ix_i σixi看做一个新的变量 y i y_i yi的话,很容易发现 y i y_i yi取值在 [ − x i , x i ] [-x_i,x_i] [xi,xi]中,且 ∑ i = 1 m x i 2 ≤ r \sqrt{\sum_{i=1}^mx_i^2}\leq r i=1mxi2 r(注意,这里的r是Massart’s Lemma里定义的)。
∑ i = 1 m y i \sum_{i=1}^my_i i=1myi看做新变量X,那么 sup ⁡ x ∈ A ∑ i = 1 m σ i x i = max ⁡ x ∈ A ∑ i = 1 m y i = max ⁡ j ∈ [ n ] X j \sup\limits_{x\in A}\sum_{i=1}^m\sigma_ix_i=\max\limits_{x\in A}\sum_{i=1}^my_i=\max\limits_{j\in[n]}X_j xAsupi=1mσixi=xAmaxi=1myi=j[n]maxXj
根据最大不等式推论就能得到马萨特引理。
E σ [ 1 m sup ⁡ x ∈ A ∑ i = 1 m σ i x i ] ≤ r 2 log ⁡ ∣ A ∣ m \mathop{E}\limits_\sigma[\frac{1}{m}\sup\limits_{x\in A}\sum_{i=1}^m\sigma_ix_i]\leq\frac{r\sqrt{2\log|A|}}{m} σE[m1xAsupi=1mσixi]mr2logA

OK 现在证明了马萨特引理了!该想想怎么用growth function替换拉德马赫复杂度了!

推论1

G G G表示一个函数族,输出取值为 { − 1 , 1 } \{-1,1\} {1,1},下式成立:
R m ( G ) ≤ 2 log ⁡ Π G ( m ) m R_m(G)\leq\sqrt{\frac{2\log\Pi_G(m)}{m}} Rm(G)m2logΠG(m)

证明:
对于一个固定的样本集 S = { x 1 , . . x m } S=\{x_1,..x_m\} S={x1,..xm},定义 G ∣ S G_{|S} GS为函数结果向量集,对于 g ∈ G g\in G gG:其结果向量为 { g ( x 1 ) , . . , g ( x m ) } T \{g(x_1),..,g(x_m)\}^T {g(x1),..,g(xm)}T。因为输出在 { − 1 , 1 } \{-1,1\} {1,1},所以结果向量的模最大为 m \sqrt{m} m 。接下来就要用到Massart’s Lemma!!:
R m ( G ) = E S [ E σ [ sup ⁡ u ∈ G ∣ S 1 m ∑ i = 1 m σ i u i ] ] ≤ E S [ m 2 log ⁡ ∣ G ∣ S ∣ m ] R_m(G)=\mathop{E}\limits_S[\mathop{E}\limits_\sigma[\sup\limits_{u\in G_{|S}}\frac{1}{m}\sum_{i=1}^m\sigma_iu_i]]\leq\mathop{E}\limits_{S}[\frac{\sqrt{m}\sqrt{2\log|G_{|S}|}}{m}] Rm(G)=SE[σE[uGSsupm1i=1mσiui]]SE[mm 2logGS ]
由于 ∣ G ∣ S ∣ ≤ Π G ( m ) |G_{|S}|\leq \Pi_G(m) GSΠG(m):
R m ( G ) ≤ E S [ m 2 log ⁡ ∣ G ∣ S ∣ m ] = 2 log ⁡ Π G ( m ) m R_m(G)\leq\mathop{E}\limits_S[\frac{\sqrt{m}\sqrt{2\log|G_{|S}|}}{m}]=\sqrt{\frac{2\log\Pi_G(m)}{m}} Rm(G)SE[mm 2logGS ]=m2logΠG(m)

注意 这个不等式里就用growth function来表示了拉德马赫复杂度的上界。下一步终于到了这一小节的第一个高潮——把约束边界里的拉德马赫复杂度换成growth function!

推理2 growth function的generalization bound

H H H表示一个函数族,输出值为 { − 1 , 1 } \{-1,1\} {1,1}。对于任意的 δ > 0 \delta>0 δ>0,我们都有 1 − δ 1-\delta 1δ的把握对于任意的 h ∈ H h\in H hH,下式成立:
R ( h ) ≤ R ^ S ( h ) + 2 log ⁡ Π H ( m ) m + log ⁡ 1 δ 2 m R(h)\leq\hat{R}_S(h)+\sqrt{\frac{2\log\Pi_H(m)}{m}}+\sqrt{\frac{\log\frac{1}{\delta}}{2m}} R(h)R^S(h)+m2logΠH(m) +2mlogδ1

不过我们的growth function只能算是一个中转站,因为计算growth function需要对所有的 m ≥ 1 m\geq1 m1的样本集计算,下面介绍的VC维也是一种计算映射集 H H H复杂度的方法,不过更简单实用。

VC-dimension

VC-dimension(Vapnik-Chervonenkis dimension)。
介绍VC维之前先介绍一个概念:“shattering”
shattering表示:如果一个映射集 H H H,对一个样本集 S S S m ≥ 1 m\geq1 m1),能够产生该样本集的所有可能的dichotomies,即 Π H ( m ) = 2 m \Pi_H(m)=2^m ΠH(m)=2m,就称 H H H shattering S S S

定义1 VC-dimension

一个映射集 H H H的VC-dimension是 H H H可以shattering的最大到的样本集的大小。
V C d i m ( H ) = m a x m : Π H ( m ) = 2 m VCdim(H)=max{m:\Pi_H(m)=2^m} VCdim(H)=maxm:ΠH(m)=2m
所以,如果 V C d i m ( H ) = d VCdim(H)=d VCdim(H)=d,说明存在一个大小为 d d d的样本集,能够被 H H Hshatter,但是不代表所有大小为 d d d的样本集都能被 H H Hshatter。

下面举几个例子来更深入的理解VC-dimension的含义。

Example 1 实线上的区间

这个问题里的映射集就是实线上的各个区间。很明显他的VC-dimension至少是2。因为对于两个样本,他们的所有可能的dichotomy为 ( + , + ) , ( + , − ) , ( − , + ) , ( − , − ) (+,+),(+,-),(-,+),(-,-) (+,+),(+,),(,+),(,),都可以被产生。下图是可视化表示:
在这里插入图片描述
然鹅,没有一个大小为3的样本集能够被 H H Hshatter。(大家自己画画图就知道了~)

Example 2 超平面

首先考虑二维空间的超平面(其实就是一条直线),那么,任何三个非线性的点都可以被shatter。
前方高能——
在这里插入图片描述上面这个图就是三个点时可能的分类结果,虽然只画了四条线,不过每一条线分割出来的两部分都可以交换他们的正负性,因此3个点有8个dichotomy,所以可以被shatter。
而四个点的时候呢?
在这里插入图片描述当他们的正负性为上图所示的时候,就没有直线可以实现。因此不能被shattered。

更一般的,在 R d R^d Rd中,我们考虑一个大小为 d + 1 d+1 d+1的样本集。令 x 0 = ( 0 , 0... , 0 ) x_0=(0,0...,0) x0=(0,0...,0)是原点。对于 i ∈ { 1 , . . . , d } i\in\{1,...,d\} i{1,...,d} x i x_i xi的第 i i i个位置为1,其余为0。他们的标签 y 0 , y 1 , y 2 , . . , y d ∈ { − 1 , 1 } y_0,y_1,y_2,..,y_d\in\{-1,1\} y0,y1,y2,..,yd{1,1},同时定义一个向量 w w w,他的第 i i i项是 y i y_i yi。于是,超平面定义为: w ⋅ x + y 0 2 = 0 w·x+\frac{y_0}{2}=0 wx+2y0=0,能够shatter所有的 d + 1 d+1 d+1个样本。
s g n ( w ⋅ x + y 0 2 ) = s g n ( y i + y 0 2 ) = y i sgn(w·x+\frac{y_0}{2})=sgn(y_i+\frac{y_0}{2})=y_i sgn(wx+2y0)=sgn(yi+2y0)=yi

注意,这个公式对于 s i z e > d + 1 size>d+1 size>d+1的样本集不适用,因为 x x x的维数为 d d d

也就是说对于样本在 R d R^d Rd的空间中,超平面分类至少能够shatter 大小为 d + 1 d+1 d+1的样本。下面我们来考虑 s i z e > d + 1 size>d+1 size>d+1的情况,要先用到一个定理:

定理1 Radon’s Theorem

任何一个有 d + 2 d+2 d+2个在 R d R^d Rd的点的样本集 X X X,都可以被分成两个子集 X 1 , X 2 X_1,X_2 X1,X2,且这两个子集凸包相交。

证明:
X = { x 1 , . . . x d + 2 } ⊂ R d X=\{x_1,...x_{d+2}\}\subset R^d X={x1,...xd+2}Rd,下面的等式组成了一个d+1个线性方程组。
∑ i = 1 d + 2 α i x i = 0 ∑ i = 1 d + 2 α i = 0 = = > α 1 x 1 , 1 + α 2 x 21 + . . . α d + 2 x d + 2 , 1 = 0 . . . α 1 x 1 , i + α 2 x 2 i + . . . α d + 2 x d + 2 , i = 0 . . . α 1 + . . . + α d + 2 = 0 \sum_{i=1}^{d+2}\alpha_ix_i=0\quad \sum_{i=1}^{d+2}\alpha_i=0\\==>\\ \alpha_1x_{1,1}+\alpha_2x_{21}+...\alpha_{d+2}x_{d+2,1} = 0\\...\\ \alpha_1x_{1,i}+\alpha_2x_{2i}+...\alpha_{d+2}x_{d+2,i} = 0\\...\\ \alpha_1+...+\alpha_{d+2} = 0 i=1d+2αixi=0i=1d+2αi=0==>α1x1,1+α2x21+...αd+2xd+2,1=0...α1x1,i+α2x2i+...αd+2xd+2,i=0...α1+...+αd+2=0
未知数( α i \alpha_i αi)有 d + 2 d+2 d+2个,方程有 d + 1 d+1 d+1个,因此必有非零解 β 1 , . . . β d + 2 \beta_1,...\beta_{d+2} β1,...βd+2
又因为 β 1 + . . . + β d + 2 = 0 \beta_1+...+\beta_{d+2} = 0 β1+...+βd+2=0,因此 J 1 = { i ∈ [ d + 2 ] : β i > 0 } , J 2 = { i ∈ [ d + 2 ] : β i ≤ 0 } J_1=\{i\in[d+2]:\beta_i>0\},J_2=\{i\in[d+2]:\beta_i\leq0\} J1={i[d+2]:βi>0},J2={i[d+2]:βi0}都是非空集合。我们可以把样本集划分为 X 1 = { x i , i ∈ J 1 } X 2 = { x i , i ∈ J 2 } X_1=\{x_i,i\in J_1\}\quad X_2=\{x_i,i\in J_2\} X1={xi,iJ1}X2={xi,iJ2}。因为 ∑ i ∈ J 1 β i = − ∑ i ∈ J 2 β i \sum\limits_{i\in J_1}\beta_i=-\sum\limits_{i\in J_2}\beta_i iJ1βi=iJ2βi,设 β = ∑ i ∈ J 1 β i \beta=\sum\limits_{i\in J_1}\beta_i β=iJ1βi,根据上面的两个公式可得:
∑ i ∈ J 1 β i β x i = ∑ i ∈ J 2 − β i β x i \sum\limits_{i\in J_1}\frac{\beta_i}{\beta}x_i=\sum\limits_{i\in J_2}-\frac{\beta_i}{\beta}x_i iJ1ββixi=iJ2ββixi
因为 ∑ i ∈ J 1 β i β = ∑ i ∈ J 2 − β i β = 1 \sum\limits_{i\in J_1}\frac{\beta_i}{\beta}=\sum\limits_{i\in J_2}-\frac{\beta_i}{\beta}=1 iJ1ββi=iJ2ββi=1,且 i ∈ J 1 时 β i β > 0 i\in J_1 时 \frac{\beta_i}{\beta}>0 iJ1ββi>0 i ∈ J 2 时 − β i β > 0 i\in J_2 时 -\frac{\beta_i}{\beta}>0 iJ2ββi>0,所以 ∑ i ∈ J 1 β i β x i \sum_{i\in J_1}\frac{\beta_i}{\beta}x_i iJ1ββixi同时属于 X 1 , X 2 X_1,X_2 X1,X2的凸包。
所以不存在超平面能够区分 X 1 X_1 X1 X 2 X_2 X2。而任意大小为 d + 2 d+2 d+2的,样本点在 R d R^d Rd的样本集,都可以分出来一组这样的两个子集(凸包相交),所超平面 H H H不能shatter大小为 d + 2 d+2 d+2的样本集。所以VCdim(hyperplane in R^d)= d + 1 d+1 d+1

Example 3 平行坐标轴的矩形

四个样本点的很容易被证明可以被shatter。下图(a)展示了部分情况,其余的自己画画就能找出来~下图(b)说明了五个样本点的时候肯定不能被shatter。
在这里插入图片描述

还有很多,就不一一列举了~

定理2 Sauer’s Lemma

H H H表示一个 V C d i m ( H ) = d VCdim(H)=d VCdim(H)=d的映射集。对于所有的 m ∈ N m\in N mN,下列不等式成立:
Π H ( m ) ≤ ∑ i = 0 d C m d \Pi_H(m)\leq \sum_{i=0}^dC_m^d ΠH(m)i=0dCmd

证明:
首先说明,这个推理用了归纳演绎的方法。显然, m = 1 m=1 m=1时, d = 0 或 者 d = 1 d=0 或者d=1 d=0d=1都是符合定理的。假设对于 ( m − 1 , d − 1 ) 和 ( m − 1 , d ) (m-1,d-1)和(m-1,d) (m1,d1)(m1,d)都成立。
固定一个样本集 S = { x 1 , . . , x m } S=\{x_1,..,x_m\} S={x1,..,xm},有 Π H ( m ) \Pi_H(m) ΠH(m)个dichotomy,令 G = H ∣ S G=H_{|S} G=HS表示被 S S S约束的一个映射集合。
考虑 S ′ = { x 1 , . . . x m − 1 } S^{'}=\{x_1,...x_{m-1}\} S={x1,...xm1},定义 G 1 = G ∣ S ′ G_1=G_{|S^{'}} G1=GS表示被 S ′ S^{'} S约束的一个映射集合。如果我们把每一个映射当成是一个非零点集(第 i i i个点表示x_i为0/1),可以定义 G 2 G_2 G2如下:
G 2 = { g ′ ⊂ S ′ : ( g ′ ∈ G ) ∧ ( g ′ ∪ { x m } ∈ G ) } G_2=\{g^{'}\subset S^{'}:(g^{'}\in G)\land (g^{'}\cup\{x_m\}\in G)\} G2={gS:(gG)(g{xm}G)}
G 1 , G 2 G_1,G_2 G1,G2的可视化如下:

在这里插入图片描述
(这个 G 1 , G 2 G_1,G_2 G1,G2解释的太抽象了,这图咱也没咋看懂,我个人理解是: G 1 G_1 G1表示的就是不考虑 x m x_m xm的所有dichotomy, G 2 G_2 G2表示的是对于 S S S来说的所有dichotomy里, x m = 0 、 x m = 1 x_m=0、x_m=1 xm=0xm=1两种情况都有的前 m − 1 m-1 m1个样本对应的dichotomy。。比如上图里第一行和第二行,除了 x m x_m xm取值不同,其余的取值都相同, G 1 G_1 G1表示的dichotomies里满足这种要求的dichotomies构成 G 2 G_2 G2

所以 ∣ G 1 ∣ + ∣ G 2 ∣ = ∣ G ∣ |G_1|+|G_2|=|G| G1+G2=G

由于 V C d i m ( G 1 ) ≤ V C d i m ( G ) ≤ d VCdim(G_1)\leq VCdim(G)\leq d VCdim(G1)VCdim(G)d,根据我们前面的假设可以得到:
∣ G 1 ∣ ≤ Π G 1 ( m − 1 ) ≤ ∑ i = 0 d C m − 1 i |G_1|\leq \Pi_{G_1}(m-1)\leq\sum_{i=0}^dC_{m-1}^i G1ΠG1(m1)i=0dCm1i

根据 G 2 G_2 G2的定义,如果 Z ⊂ S ′ Z\subset S^{'} ZS可以被 G 2 G_2 G2shatter,那么 Z ∪ x m Z\cup{x_m} Zxm一定可以被 G G Gshatter。所以:
V C d i m ( G 2 ) ≤ V C d i m ( G ) − 1 ≤ d − 1 VCdim(G_2)\leq VCdim(G)-1\leq d-1 VCdim(G2)VCdim(G)1d1
所以
∣ G 2 ∣ ≤ Π G 2 ( m − 1 ) ≤ ∑ i = 0 d − 1 C m − 1 i |G_2|\leq\Pi_{G_2}(m-1)\leq\sum_{i=0}^{d-1}C_{m-1}^{i} G2ΠG2(m1)i=0d1Cm1i
所以
∣ G ∣ = ∣ G 1 ∣ + ∣ G 2 ∣ ≤ ∑ i = 0 d C m − 1 i + ∑ i = 0 d − 1 C m = 1 i = ∑ i = 0 d C m − 1 i + C m − 1 i − 1 = ∑ i = 0 d C m i |G| = |G_1|+|G_2| \leq \sum_{i=0}^dC_{m-1}^i+\sum_{i=0}^{d-1}C_{m=1}^i=\sum_{i=0}^dC_{m-1}^i+C_{m-1}^{i-1}=\sum_{i=0}^dC_m^i G=G1+G2i=0dCm1i+i=0d1Cm=1i=i=0dCm1i+Cm1i1=i=0dCmi
(最后一步自己把 C m − 1 i − 1 + C m − 1 i C_{m-1}^{i-1}+C_{m-1}^i Cm1i1+Cm1i展开一下就能得到~)

至此,定理得证。

这个定理有啥用呢,看接下来的一个推论

推理1

H H H表示一个映射集, V C d i m ( H ) = d VCdim(H)=d VCdim(H)=d,对于所有的 m ≥ d m\geq d md
Π H ( m ) ≤ ( e m d ) d = O ( m d ) \Pi_H(m)\leq(\frac{em}{d})^d=O(m^d) ΠH(m)(dem)d=O(md)

证明:(用到了上一个推理)
Π H ( m ) ≤ ∑ i = 0 d C m i ≤ ∑ i = 0 d C m i ( m d ) d − i ≤ ∑ i = 0 m C m i ( m d ) d − i = ( m d ) d ∑ i = 0 m C m i ( d m ) i = ( m d ) d ( 1 + d m ) m ≤ ( m d ) d e d \Pi_H(m)\leq\sum_{i=0}^dC_m^i\leq\sum_{i=0}^dC_m^i(\frac{m}{d})^{d-i}\leq\sum_{i=0}^mC_m^i(\frac{m}{d})^{d-i}=(\frac{m}{d})^d\sum_{i=0}^mC_m^i(\frac{d}{m})^i=(\frac{m}{d})^d(1+\frac{d}{m})^m\leq(\frac{m}{d})^de^d ΠH(m)i=0dCmii=0dCmi(dm)dii=0mCmi(dm)di=(dm)di=0mCmi(md)i=(dm)d(1+md)m(dm)ded

本小节的第二个高潮要来了~在generalization bound中用VCdim替换growth function!!

推理2 VC-dimension generalization bounds

H H H表示一个映射族,取值在 { − 1 , 1 } \{-1,1\} {1,1} V C d i m = d VCdim=d VCdim=d。对于任一 δ > 0 \delta > 0 δ>0,都有 1 − δ 1-\delta 1δ的把握,令下式对于所有的 h ∈ H h\in H hH成立:
R ( h ) ≤ R ^ S ( h ) + 2 d log ⁡ e m d m + log ⁡ 1 δ 2 m R(h)\leq\hat{R}_S(h)+\sqrt{\frac{2d\log\frac{em}{d}}{m}}+\sqrt{\frac{\log\frac{1}{\delta}}{2m}} R(h)R^S(h)+m2dlogdem +2mlogδ1
注意,这里右边的第二项把growth function generalization bounds里面的 log ⁡ Π G ( m ) \log\Pi_G(m) logΠG(m)利用上面的推理1换成了 d log ⁡ e m d d\log\frac{em}{d} dlogdem

一般化的写法就是:
R ( h ) ≤ R ^ S ( h ) + O ( log ⁡ ( m / d ) m / d ) R(h)\leq\hat{R}_S(h)+O(\sqrt{\frac{\log(m/d)}{m/d}}) R(h)R^S(h)+O(m/dlog(m/d) )
这个边界可以用在实际估计中了~(只需要知道 d d d就行)

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习是计算机科学中的一个重要分支,旨在通过设计和分析算法,使计算机系统能够从数据中自动学习和提高,并对未见过的数据提出准确的预测。在机器学习中,数据是关键。该领域利用计算方法对大量数据进行处理和分析,以发现数据中的模式和趋势。通过对这些数据模式进行建模和预测,机器学习使计算机系统能够自动地改进自己的决策和表现。 “基础机器学习”(Foundations of Machine Learning)是机器学习领域中的一个重要概念。它涵盖了机器学习的基本原理和算法,包括如何构建、评估和优化机器学习模型。这些基础理论和方法对于开发和使用先进的机器学习系统至关重要。 在基础机器学习中,重要的概念包括监督学习、无监督学习、半监督学习和强化学习。监督学习是一种从已知的训练数据中构建模型的方法,用于对新数据进行预测。无监督学习是一种从未标记的数据中挖掘模式的方法,而半监督学习则是两者的结合。强化学习则是一种通过与环境交互来学习的方法,根据奖励信号调整模型。 此外,基础机器学习还包括模型评估和选择、特征选择和提取、优化方法等。这些技术和方法使机器学习更加健壮和可靠,并为开发新的机器学习算法提供基础。 总的来说,基础机器学习机器学习领域的核心概念之一,对于发展高级机器学习和人工智能系统至关重要。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值