Foundations of Machine Learning 2nd——第三章(一)拉德马赫复杂度

回顾第二章

我们在设计算法的时候肯定要考虑他的可行性以及需要多少训练样本才能返回一个比较准确的从输入到输出的映射。第二章就介绍了一个这样的框架——PAC框架,它能够帮助我们确定模型的可行性和训练样本的大小,以及generalization error的边界。同时第二章还举了有限映射集( H H H)且consistent、有限映射集且inconsistent以及agnostic PAC-learning的情况。

不过并没有介绍无限映射集的情况,所以这一章主要介绍的是对于无限假设集的问题,找到他们一般性的边界(generalization error)。

那么如何处理这种情况呢?很自然地就可以想到是否可以将无限映射集的情况简化到有限映射集的情况,这样就可以使用前一章的处理方法。有许多实现这种简化的技巧,他们都依赖于关于映射族的一些复杂度概念,我们第一个要用到的复杂度概念是——拉德马赫复杂度(Rademacher complexity)。他可以帮助我们导出有效边界。

注意:这一节的许多结论对于任意损失函数都是通用的

拉德马赫复杂度

H H H表示一个映射(假设)集, L : Y × Y → R L:Y\times Y\rightarrow R L:Y×YR表示任意一个损失函数, G G G表示和 H H H有关的损失函数簇,从 Z = X × Y Z=X\times Y Z=X×Y映射到 R R R:
G = { G : ( x , y ) → L ( h ( x ) , y ) : h ∈ H } G=\{G:(x,y)\rightarrow L(h(x),y):h\in H\} G={G:(x,y)L(h(x),y):hH}
后文直接用来表示从输入空间 Z Z Z到实数 R R R的映射集

拉德马赫复杂度的作用是:通过计算映射集和随机噪声的匹配度来捕捉一个函数族的丰富度。

定义1 经验拉德马赫复杂度(Empirical Rademacher complexity)

G G G表示从 Z Z Z [ a , b ] [a,b] [a,b]的映射函数集,样本集 S = { z 1 , z 2 , . . , z m } S=\{z_1,z_2,..,z_m\} S={z1,z2,..,zm}包含 m m m个样本。 G G G关于 S S S的经验拉德马赫复杂度如下:
R S ^ ( G ) = E σ [ sup ⁡ g ∈ G 1 m ∑ i = 1 m σ 1 g ( z i ) ] \hat{R_S}(G) = \mathop{E}\limits_\sigma[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^{m}\sigma_1g(z_i)] RS^(G)=σE[gGsupm1i=1mσ1g(zi)]
s u p { } sup\{\} sup{}表示上确界。
σ = { σ 1 , σ 2 , . . , σ m } \sigma=\{\sigma_1,\sigma_2,..,\sigma_m\} σ={σ1,σ2,..,σm}, σ i \sigma_i σi是独立同分布的随机变量,取值为 { 1 , − 1 } \{1,-1\} {1,1}

(注意:这里我们假设关于映射集 G G G的上确界是可以找到的,这个假设在后面一直会沿用,虽然在实际中可能无法计算,但是这个假设对于公式推导是有效且有意义的)
上式也可写成:
R S ^ ( G ) = E σ [ sup ⁡ g ∈ G σ ⋅ g S m ] \hat{R_S}(G) = \mathop{E}\limits_\sigma[\sup\limits_{g\in G}\frac{\sigma· g_S}{m}] RS^(G)=σE[gGsupmσgS]
g S g_S gS表示函数 g g g作用在样本集 S S S上计算得到的向量。

这里 σ ⋅ g S \sigma·g_S σgS这一内积表示 g S g_S gS σ \sigma σ的相关性。 s u p g ∈ G σ ⋅ g S m sup_{g\in G}\frac{\sigma·g_S}{m} supgGmσgS表示 G G G这个函数集合 σ \sigma σ的最好匹配性。于是经验拉德马赫复杂度就可以平均的表示函数集 G G G和随机变量 σ \sigma σ在样本集 S S S上的匹配程度。这表示了函数集 G G G的丰富度:越丰富或者越复杂的函数集 G G G可以产生更多的向量 g S g_S gS,因此和随机变量的相关性更好。

定义2 拉德马赫复杂度

D D D表示样本服从的分布。对于任意的整数 m ≥ 1 m\geq1 m1 G G G的拉德马赫复杂度就是经验拉德马赫复杂度在所有的大小为 m m m的样本集上的期望:
R m ( G ) = E S ∼ D m [ R S ^ ( G ) ] R_m(G)=\mathop{E}\limits_{S\sim D^m}[\hat{R_S}(G)] Rm(G)=SDmE[RS^(G)]

NOW!我们知道了拉德马赫复杂度的定义,上文说无限映射集的情况下,他的约束边界是根据拉德马赫复杂度来引出的!接下来让我们康康这个小东西怎么引出来约束边界的~

定理1

G G G表示一个从 Z Z Z映射到 [ 0 , 1 ] [0,1] [0,1]。对于任意的 δ > 0 \delta>0 δ>0,至少有 1 − δ 1-\delta 1δ的概率对于一个大小为 m m m的独立同分布的样本集 S S S来说,下式对所有的 g ∈ G g\in G gG都成立:
E [ g ( z ) ] ≤ 1 m ∑ i = 1 m g ( z i ) + 2 R m ( G ) + log ⁡ 1 δ 2 m E [ g ( z ) ] ≤ 1 m ∑ i = 1 m g ( z i ) + 2 R S ^ ( G ) + 3 log ⁡ 2 δ 2 m \mathop{E}[g(z)]\leq \frac{1}{m}\sum_{i=1}^{m}g(z_i)+2R_m(G)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}} \\ \mathop{E}[g(z)]\leq \frac{1}{m}\sum_{i=1}^{m}g(z_i)+2\hat{R_S}(G)+3\sqrt{\frac{\log\frac{2}{\delta}}{2m}} E[g(z)]m1i=1mg(zi)+2Rm(G)+2mlogδ1 E[g(z)]m1i=1mg(zi)+2RS^(G)+32mlogδ2

注意:关于第一个不等式根号里面,书上写的是 1 / δ 1/\delta 1/δ,但是我个人感觉应该是 2 / δ 2/\delta 2/δ,推导在后面,如果我推导的是错的欢迎指正!

这个定理给出了映射的损失值的期望上界。

证明:
对于任意样本集 S S S和任意 g ∈ G g\in G gG,定义 E ^ S [ g ] = 1 m ∑ i = 1 m g ( z i ) \hat{E}_S[g] = \frac{1}{m}\sum_{i=1}^mg(z_i) E^S[g]=m1i=1mg(zi)。为了证明上式,我们引用了McDiarmid不等式,并且构造了一个函数 Φ \Phi Φ(关于任意 S S S)(这个 Φ \Phi Φ的作用就是能够在证明过程中应用McDiarmid不等式):
Φ ( S ) = sup ⁡ g ∈ G ( E [ g ] − E ^ S [ g ] ) \Phi(S) = \sup\limits_{g\in G}(E[g]-\hat{E}_S[g]) Φ(S)=gGsup(E[g]E^S[g])
定义 S ′ S^{'} S S S S是两个样本集,他们只有一个样本点是不同的,假设是 S S S里的 z m z_m zm S ′ S^{'} S里的 z m ′ z_m^{'} zm
由于上界之差小于等于差的上界,可以导出:
Φ ( S ′ ) − Φ ( S ) ≤ sup ⁡ g ∈ G ( E ^ S ( g ) − E ^ S ′ ( g ) ) = sup ⁡ g ∈ G g ( z m ) − g ( z m ′ ) m ≤ 1 m \Phi(S^{'})-\Phi(S)\leq\sup\limits_{g\in G}(\hat{E}_S(g)-\hat{E}_{S^{'}}(g))=\sup\limits_{g\in G}\frac{g(z_m)-g(z_m^{'})}{m}\leq\frac{1}{m} Φ(S)Φ(S)gGsup(E^S(g)E^S(g))=gGsupmg(zm)g(zm)m1
(因为 g g g是从 Z Z Z映射到 { 0 , 1 } \{0,1\} {0,1}的函数,所以 g ( z m ) − g ( z m ′ ) ≤ 1 g(z_m)-g(z_m^{'})\leq 1 g(zm)g(zm)1
也就是说, Φ ( S ′ ) − Φ ( S ) ≤ 1 m → ∣ Φ ( S ′ ) − Φ ( S ) ∣ ≤ 1 m \Phi(S^{'})-\Phi(S)\leq\frac{1}{m}\rightarrow|\Phi(S^{'})-\Phi(S)|\leq\frac{1}{m} Φ(S)Φ(S)m1Φ(S)Φ(S)m1
接下来利用McDiarmid不等式可以得到,对于任意的 δ > 0 \delta>0 δ>0,有 1 − δ / 2 1-\delta/2 1δ/2的把握使得下式成立:
Φ ( S ) ≤ E S [ Φ ( S ) ] + log ⁡ 2 δ 2 m \Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}} Φ(S)SE[Φ(S)]+2mlogδ2

这一步的证明如下:
McDiarmid不等式介绍如下:
设函数 f : X n → R f:X^n\rightarrow R f:XnR满足对所有的 i i i都可以找到一个常数 c i < + ∞ c_i<+\infty ci<+使得:
∣ f ( x 1 , . . . x m ) − f ( x 1 , . . x i ′ , . . x m ) ∣ ≤ c i |f(x_1,...x_m)-f(x1,..x_i^{'},..x_m)|\leq c_i f(x1,...xm)f(x1,..xi,..xm)ci
则称 f f f是差有界的(也就是说除一个数据点外其他数据点不变的话,预测结果差距不会太大,这一性质在ML中十分重要,是ML中的某种稳定性质)
McDiarmid不等式给出了一个概率界,如果样本独立,且 f f f是差有界的,那么:
P ( ∣ f ( x 1 , . . . , x m ) − E [ f ( x 1 , . . . , x m ) ] ∣ > t ) ≤ 2 exp ⁡ { − 2 t 2 ∑ i = 1 m c i 2 } P(|f(x_1,...,x_m)-E[f(x_1,...,x_m)]|>t)\leq 2\exp\{-\frac{2t^2}{\sum_{i=1}^{m}c_i^2}\} P(f(x1,...,xm)E[f(x1,...,xm)]>t)2exp{i=1mci22t2}
再回到我们上面说的 Φ ( S ′ ) − Φ ( S ) ≤ 1 m → ∣ Φ ( S ′ ) − Φ ( S ) ∣ ≤ 1 m \Phi(S^{'})-\Phi(S)\leq\frac{1}{m}\rightarrow|\Phi(S^{'})-\Phi(S)|\leq\frac{1}{m} Φ(S)Φ(S)m1Φ(S)Φ(S)m1,也就是说 Φ ( S ) \Phi(S) Φ(S)是差有界的。那么
P ( Φ ( S ) − E S [ Φ ( S ) ] > ϵ ) ≤ exp ⁡ { − 2 ϵ 2 ∑ i = 1 m 1 m 2 } = exp ⁡ { − 2 ϵ 2 m } = δ / 2 = = > ϵ = log ⁡ 2 δ 2 m P(\Phi(S)-\mathop{E}\limits_S[\Phi(S)]>\epsilon)\leq\exp\{-\frac{2\epsilon^2}{\sum_{i=1}^m\frac{1}{m^2}}\}=\exp\{-2\epsilon^2m\}=\delta/2\\ ==>\epsilon= \sqrt{\frac{\log\frac{2}{\delta}}{2m}} P(Φ(S)SE[Φ(S)]>ϵ)exp{i=1mm212ϵ2}=exp{2ϵ2m}=δ/2==>ϵ=2mlogδ2
所以有 1 − δ / 2 1-\delta/2 1δ/2的把握 Φ ( S ) − E S [ Φ ( S ) ] ≤ ϵ → Φ ( S ) ≤ E S [ Φ ( S ) ] + log ⁡ 2 δ 2 m \Phi(S)-\mathop{E}\limits_S[\Phi(S)]\leq\epsilon\rightarrow \\ \Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}} Φ(S)SE[Φ(S)]ϵΦ(S)SE[Φ(S)]+2mlogδ2

上面从设 Φ ( S ) \Phi(S) Φ(S)开始都是为了得到最初的定理( E [ g ( z ) ] E[g(z)] E[g(z)]的边界)所做的trick。下面一步还是trick…(只是提醒一下,省的看到这儿忘记了前面是什么):
E S [ Φ ( S ) ] = E S [ sup ⁡ g ∈ G ( E [ g ] − E ^ S ( g ) ) ] = E S [ E S ′ [ E ^ S ′ ( g ) − E ^ S ( g ) ] ] 因 为 E [ g ] = E S ′ [ E ^ S ′ ( g ) ] ≤ E S , S ′ [ sup ⁡ g ∈ G ( E ^ S ′ ( g ) − E ^ S ( g ) ) ] 期 望 的 上 界 小 于 上 界 的 期 望 = E S , S ′ [ sup ⁡ g ∈ G 1 m ∑ i = 1 m ( g ( z i ′ ) − g ( z i ) ) ] = E S , S ′ , σ [ sup ⁡ g ∈ G 1 m ∑ i = 1 m σ i ( g ( z i ′ ) − g ( z i ) ) ] ≤ E S ′ , σ [ sup ⁡ g ∈ G 1 m ∑ i = 1 m σ i g ( z i ′ ) ] + E S , σ [ sup ⁡ g ∈ G 1 m ∑ i = 1 m − σ i g ( z i ) ] 和 的 上 界 小 于 等 于 上 界 的 和 = 2 E S , σ [ sup ⁡ g ∈ G 1 m ∑ i = 1 m σ i g ( z i ) ] = 2 R m ( G ) \mathop{E}\limits_S[\Phi(S)]=\mathop{E}\limits_S[\sup\limits_{g\in G}(E[g]-\hat{E}_S(g))]\\ =\mathop{E}\limits_S[\mathop{E}_{S^{'}}[\hat{E}_{S^{'}}(g)-\hat{E}_S(g)]]\quad 因为E[g] = \mathop{E}\limits_{S^{'}}[\hat{E}_{S^{'}}(g)]\\ \leq\mathop{E}\limits_{S,S^{'}}[\sup\limits_{g\in G}(\hat{E}_{S^{'}}(g)-\hat{E}_S(g))]\quad 期望的上界小于上界的期望\\ =\mathop{E}\limits_{S,S^{'}}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m(g(z_i^{'})-g(z_i))]\\ =\mathop{E}\limits_{S,S^{'},\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_i(g(z_i^{'})-g(z_i))]\\ \leq\mathop{E}\limits_{S^{'},\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i^{'})]+\mathop{E}\limits_{S,\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m-\sigma_ig(z_i)]\quad 和的上界小于等于上界的和\\ =2\mathop{E}\limits_{S,\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i)]=2R_m(G) SE[Φ(S)]=SE[gGsup(E[g]E^S(g))]=SE[ES[E^S(g)E^S(g)]]E[g]=SE[E^S(g)]S,SE[gGsup(E^S(g)E^S(g))]=S,SE[gGsupm1i=1m(g(zi)g(zi))]=S,S,σE[gGsupm1i=1mσi(g(zi)g(zi))]S,σE[gGsupm1i=1mσig(zi)]+S,σE[gGsupm1i=1mσig(zi)]=2S,σE[gGsupm1i=1mσig(zi)]=2Rm(G)

解释:引入 σ \sigma σ那一步,因为 σ \sigma σ是均匀分布的独立随机变量,取值在 { 1 , − 1 } \{1,-1\} {1,1}里,同时 S , S ′ S,S^{'} S,S也是任意一个大小为 m m m的样本集,所以引入 δ \delta δ对结果不产生影响,且 − δ -\delta δ δ \delta δ作用一样。

也就是说,刚刚求出的不等式 Φ ( S ) ≤ E S [ Φ ( S ) ] + log ⁡ 2 δ 2 m ≤ 2 R m ( G ) + log ⁡ 2 δ 2 m \Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\leq2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}} Φ(S)SE[Φ(S)]+2mlogδ2 2Rm(G)+2mlogδ2
又因为 Φ ( S ) = sup ⁡ g ∈ G ( E ( g ) − E ^ S ( g ) ) \Phi(S) = \sup\limits_{g\in G}(E(g)-\hat{E}_S(g)) Φ(S)=gGsup(E(g)E^S(g))
E ( g ) − E ^ S ( g ) ≤ 2 R m ( G ) + log ⁡ 2 δ 2 m = = > E ( g ) ≤ E ^ S ( g ) + 2 R m ( G ) + log ⁡ 2 δ 2 m E(g)-\hat{E}_S(g)\leq2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\\ ==>E(g)\leq\hat{E}_S(g)+2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}} E(g)E^S(g)2Rm(G)+2mlogδ2 ==>E(g)E^S(g)+2Rm(G)+2mlogδ2
也就是一开始我们说的关于损失函数 g g g的期望上界。(只不过定义里把 1 − 2 / δ 1-2/\delta 12/δ的把握扩展到了 1 − δ 1-\delta 1δ

第一个等式证出来了,那么第二个呢?类似,也利用McDiarmid不等式
推导定理的第二个不等式需要用到:
R m ( G ) ≤ R ^ S ( G ) + log ⁡ 2 δ 2 m R_m(G)\leq\hat{R}_S(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}} Rm(G)R^S(G)+2mlogδ2
证明:
R ^ S − R ^ S ′ = E σ [ sup ⁡ g σ ⋅ g S m ] − E σ [ sup ⁡ g σ ⋅ g S ′ m ] = E σ ( sup ⁡ g σ ⋅ g S m − sup ⁡ g σ ⋅ g S ′ m ) ≤ E σ ( sup ⁡ g σ ⋅ ( g S − g S ′ ) m ) = E σ ( sup ⁡ g σ i ⋅ g ( z i − z i ′ ) m ) ≤ 1 m \hat{R}_S-\hat{R}_{S^{'}}=\mathop{E}\limits_{\sigma}[\sup\limits_g\frac{\sigma·g_S}{m}]-\mathop{E}\limits_{\sigma}[\sup\limits_g\frac{\sigma·g_{S^{'}}}{m}]\\ =\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma·g_S}{m}-\sup\limits_g\frac{\sigma·g_{S^{'}}}{m})\\ \leq\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma·(g_S-g_{S^{'}})}{m})\\ =\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma_i·g(z_i-z_i^{'})}{m})\leq\frac{1}{m} R^SR^S=σE[gsupmσgS]σE[gsupmσgS]=σE(gsupmσgSgsupmσgS)σE(gsupmσ(gSgS))=σE(gsupmσig(zizi))m1
得到了这一个不等式后,利用McDarmid不等式:
P ( R m ( G ) − R ^ S ( G ) > ϵ ) = P ( E S ′ [ R ^ S ′ ( G ) ] − R ^ S ( G ) > ϵ ) ≤ exp ⁡ { − 2 ϵ 2 m } = δ / 2 P(R_m(G)-\hat{R}_S(G)>\epsilon)=P(\mathop{E}\limits_{S^{'}}[\hat{R}_{S^{'}}(G)]-\hat{R}_S(G)>\epsilon)\leq\exp\{-2\epsilon^2m\}=\delta/2 P(Rm(G)R^S(G)>ϵ)=P(SE[R^S(G)]R^S(G)>ϵ)exp{2ϵ2m}=δ/2
可以推出:
ϵ = log ⁡ 2 δ 2 m \epsilon=\sqrt{\frac{\log\frac{2}{\delta}}{2m}} ϵ=2mlogδ2
不等式得证。
R m ( G ) R_m(G) Rm(G)带入定理的第一个不等式就得到第二个。

引理1

H H H是一个映射族,映射到 { − 1 , 1 } \{-1,1\} {1,1},令 G G G是关于 H H H的0-1损失函数族: G = { ( x , y ) → 1 h ( x ) ≠ y : h ∈ H } G=\{(x,y)\rightarrow1_{h(x)\neq y}:h\in H\} G={(x,y)1h(x)=y:hH}。对于任意的样本集 S = { ( x 1 , y 1 ) , . . . , ( x m , y m ) } S=\{(x_1,y_1),...,(x_m,y_m)\} S={(x1,y1),...,(xm,ym)},令 S X = x 1 , . . . , x m S_X={x_1,...,x_m} SX=x1,...,xm,下式对于 G G G H H H直接的经验拉德马赫复杂度成立:
R ^ S ( G ) = 1 2 R ^ X ( H ) \hat{R}_S(G)=\frac{1}{2}\hat{R}_X(H) R^S(G)=21R^X(H)
证明:
R ^ S ( G ) = E σ [ sup ⁡ h ∈ H 1 m ∑ i = 1 m σ i ⋅ 1 h ( x i ) ≠ y i ] = E σ [ sup ⁡ h ∈ H 1 m ∑ i = 1 m σ i ⋅ 1 − y i h ( x i ) 2 ] = 1 2 E σ [ sup ⁡ h ∈ H 1 m ∑ i = 1 m − σ i y i h ( x i ) ] = 1 2 E σ [ sup ⁡ h ∈ H 1 m ∑ i = 1 m σ i h ( x i ) ] = 1 2 R ^ X ( H ) \hat{R}_S(G)=\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i·1_{h(x_i)\neq y_i}]\\ =\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i·\frac{1-y_ih(x_i)}{2}] \\ =\frac{1}{2}\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m-\sigma_iy_ih(x_i)]\\ =\frac{1}{2}\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_ih(x_i)]=\frac{1}{2}\hat{R}_X(H) R^S(G)=σE[hHsupm1i=1mσi1h(xi)=yi]=σE[hHsupm1i=1mσi21yih(xi)]=21σE[hHsupm1i=1mσiyih(xi)]=21σE[hHsupm1i=1mσih(xi)]=21R^X(H)
注意:
对于固定的 y i y_i yi y i σ i y_i\sigma_i yiσi σ i \sigma_i σi分布统一。

定理2 拉德马赫复杂度边界——二分类

这里介绍二分类问题的拉德马赫复杂度边界。
H H H表示映射族,映射到 { − 1 , 1 } \{-1,1\} {1,1}, D D D是样本空间 X X X的分布。对于任意的 δ > 0 \delta>0 δ>0,都有 1 − δ 1-\delta 1δ的把握对于所有的大小为 m m m的样本集 S S S
R ( h ) ≤ R ^ S ( h ) + R m ( H ) + log ⁡ 1 δ 2 m R ( h ) ≤ R ^ S ( h ) + R ^ S ( H ) + 3 log ⁡ 1 δ 2 m R(h)\leq\hat{R}_S(h)+R_m(H)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\\ R(h)\leq\hat{R}_S(h)+\hat{R}_S(H)+3\sqrt{\frac{\log\frac{1}{\delta}}{2m}} R(h)R^S(h)+Rm(H)+2mlogδ1 R(h)R^S(h)+R^S(H)+32mlogδ1

注意:这里可能因为我的书写问题引发误会,括号里是小写字母的表示empirical error/generalization error,括号里是大写字母的表示拉德马赫复杂度
所以, R ( h ) R(h) R(h)其实就是 E ( g ) E(g) E(g) R ^ S ( h ) \hat{R}_S(h) R^S(h)其实就是 E ^ S ( g ) \hat{E}_S(g) E^S(g), 2 R m ( G ) = R m ( H ) 2R_m(G)=R_m(H) 2Rm(G)=Rm(H)(根据引理1)。于是可以得到定理2。

至此,我们利用拉德马赫不等式得到了无限映射集情况下的generalization error的上界。第一个不等式具有理论意义,而第二个不等式才具有实际意义,因为 R ^ S ( H ) \hat{R}_S(H) R^S(H)才可计算,因为他是依赖数据(data-dependent)的,对于一个特定的样本集 S S S,我们就可以计算这个边界。那么 R ^ S ( H ) \hat{R}_S(H) R^S(H)咋求呢?

R ^ S ( H ) = E σ [ sup ⁡ h ∈ H 1 m ∑ i = 1 m − σ i h ( x i ) ] = − E σ [ inf ⁡ h ∈ H ∑ i = 1 m 1 m σ i h ( x i ) ] \hat{R}_S(H)=\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m-\sigma_ih(x_i)]=-\mathop{E}\limits_\sigma[\inf\limits_{h\in H}\sum_{i=1}^m\frac{1}{m}\sigma_ih(x_i)] R^S(H)=σE[hHsupm1i=1mσih(xi)]=σE[hHinfi=1mm1σih(xi)]
于是,对于特定的 σ \sigma σ向量,计算 inf ⁡ h ∈ H ∑ i = 1 m 1 m σ i h ( x i ) \inf\limits_{h\in H}\sum_{i=1}^m\frac{1}{m}\sigma_ih(x_i) hHinfi=1mm1σih(xi)相当于一个最小化经验损失的问题,对于一些映射集来说,这是一个十分困难的问题。下一节再讲!

总结

利用拉德马赫复杂度、McDarimid不等式等可以帮我们导出更一般化(infinit hypothesis set)的generalization error边界!

有不对的地方欢迎指出!=v=

  • 5
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
机器学习是计算机科学的一个重要分支,旨在通过设计和分析算法,使计算机系统能够从数据自动学习和提高,并对未见过的数据提出准确的预测。在机器学习,数据是关键。该领域利用计算方法对大量数据进行处理和分析,以发现数据的模式和趋势。通过对这些数据模式进行建模和预测,机器学习使计算机系统能够自动地改进自己的决策和表现。 “基础机器学习”(Foundations of Machine Learning)是机器学习领域的一个重要概念。它涵盖了机器学习的基本原理和算法,包括如何构建、评估和优化机器学习模型。这些基础理论和方法对于开发和使用先进的机器学习系统至关重要。 在基础机器学习,重要的概念包括监督学习、无监督学习、半监督学习和强化学习。监督学习是一种从已知的训练数据构建模型的方法,用于对新数据进行预测。无监督学习是一种从未标记的数据挖掘模式的方法,而半监督学习则是两者的结合。强化学习则是一种通过与环境交互来学习的方法,根据奖励信号调整模型。 此外,基础机器学习还包括模型评估和选择、特征选择和提取、优化方法等。这些技术和方法使机器学习更加健壮和可靠,并为开发新的机器学习算法提供基础。 总的来说,基础机器学习机器学习领域的核心概念之一,对于发展高级机器学习和人工智能系统至关重要。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值