机器学习之Rademacher复杂度和VC维

本文介绍了机器学习中衡量假设集复杂度的两种方法:Rademacher复杂度和VC维。Rademacher复杂度通过测量假设集对随机噪声的拟合程度来评估,而VC维则关注假设集能打散的最大样本集大小。通过对这两个概念的探讨,文章阐述了如何使用它们来推导泛化边界,并讨论了它们在计算和理解模型复杂度上的作用。
摘要由CSDN通过智能技术生成

  在上一节中,我们在用假设集的大小 H H H来衡量一个假设集的复杂度。这样做的缺点是,对于具有无限个假设的假设集我们得到了两个不符合直觉的结论:(1)它们的复杂度都是无穷大,但沿轴矩形的学习问题证明具有无限个假设的假设集是PAC可学习的。(2)它们的复杂度都相等,但我们知道,线性假设集的复杂度肯定没有 n n n次多项式假设集的复杂度高。因此,我们自然需要寻找新的方法来度量一个假设集的复杂度而不是简单地用假说集合的大小来判断。

  本章重点

  • 使用基于McDiarmid不等式Rademacher复杂度来度量假设集的复杂度和丰富性。推导基于Rademacher复杂度的泛化边界。但对于某些假设集来说,经验Rademacher复杂度的计算是NP难的。
  • 引入增长函数的概念,使其计算假设集的复杂性不依赖于样本的分布,并将增长函数与Rademacher复杂度联系起来。
  • 计算假设集的增长函数是困难的,随后引入 V C VC VC的概念,并将增长函数与 V C VC VC维联系起来,推导基于 V C VC VC维的泛化边界。

1、Rademacher复杂度

  使用 H H H表示假设集, h h h就是 H H H中的一个假设(从输入空间到输出空间的映射)。对任意损失函数 L : Y × Y → R L:\mathcal{Y}\times \mathcal{Y}→ \mathbb{R} L:Y×YR。对于每个 h : X → Y h : \mathcal{X} → \mathcal{Y} h:XY,我们可以用函数 g g g表示从 ( x , y ) ∈ X × Y (x, y)∈\mathcal{X}\times\mathcal{Y} (x,y)X×Y L ( h ( x ) , y ) L (h (x), y) L(h(x),y)映射。 G G G g g g的集合,用于表示与 H H H有关的损失函数族。

  Rademacher复杂度通过测量假设集对随机噪声的拟合程度来表征函数族的丰富性。下面将讲述经验Rademacher复杂度平均Rademacher复杂度的正式定义。

定义1: 经验Rademacher复杂度:

  设 G G G是一族从 Z Z Z映射到 [ a , b ] [a,b] [a,b]的函数族, S = ( z 1 , … z m ) S = (z_1,…z _m) S=(z1zm)来自 z z z空间中大小为 m m m的样本集,其中 z i ∈ Z z_i\in Z ziZ,则 G G G在样本 S S S上的经验Rademacher复杂度定义为:

R ^ S ( G ) = E σ [ sup ⁡ g ∈ G 1 m ∑ i = 1 m σ i g ( z i ) ] ,                  ( 3.1 ) \widehat{\mathfrak{R}}_S(G)=\mathop{\mathbb{E}}\limits_{\sigma}[\sup_{g\in{G}}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i)],\;\;\;\;\;\;\;\;(3.1) R S(G)=σE[gGsupm1i=1mσig(zi)],(3.1)

其中, σ = ( σ 1 , … … σ m ) T \mathbf{σ}=(σ_1,……σ_m)^T σ=(σ1,σm)T σ i σ_i σi是取值为 { − 1 , + 1 } \{−1 ,+ 1\} { 1,+1}独立随机变量,被称为Rademacher变量。

  • 样本 S = ( z 1 , . . . . . z m ) = ( ( x 1 , y 1 ) , . . . . . . ( x m , y m ) ) S=(z_1,.....z_m)=((x_1,y_1),......(x_m,y_m)) S=(z1,.....zm)=((x1,y1),......(xm,ym))
  • g ( z i ) g(z_i) g(zi)用来表示用假设 h h h来预测 y i y_i yi所产生的误差,即损失函数。

  如果 g S \mathbf{g}_ S gS表示在样本 S S S上的向量: g S = ( g ( z 1 ) , … , g ( z m ) ) T \mathbf{g}_ S = (g(z_1),…,g(z _m))^T gS=(g(z1)g(zm))T。则经验Rademacher复杂性可以改写为:

R ^ S ( G ) = E σ [ sup ⁡ g ∈ G σ ⋅ g S m ] . \widehat{\mathfrak{R}}_S(G)=\mathop{\mathbb{E}}\limits_{\sigma}[\sup_{g\in{G}}\frac{\sigma\cdot\mathbf{g}_S}{m}]. R S(G)=σE[gGsupmσgS].

  内积 σ ⋅ g S σ·\mathbf{g} _S σgS度量了 g S \mathbf{g} _S gS(单个函数在样本集上)与随机噪声 σ σ σ向量的相关性。取上确界 sup ⁡ g ∈ G σ ⋅ g S m \sup_{g\in{G}}\frac{\sigma\cdot\mathbf{g} _S}{m} supgGmσgS表示函数 G G G在样本 S S S上与噪声 σ σ σ的相关性 。取期望(经验Rademacher复杂度)表示函数族 G G G S S S上与噪声的平均相关性,这也就描述了函数族 G G G的丰富度:更丰富、更复杂的函数族 G G G可以产生更多的 g S \mathbf{g}_S gS,在平均水平上更好的拟合随机噪声

定义2:Rademacher复杂度

  设 D D D是样本 S S S的分布。对于任意整数 m ≥ 1 m≥1 m1 G G G的Rademacher复杂度是根据分布 D D D m m m个样本的经验Rademacher复杂性的期望:

R m ( G ) = E S ∼ D m [ R ^ S ( G ) ] .                  ( 3.2 ) \mathfrak{R}_m(G)=\mathop{\mathbb{E}}\limits_{S\sim{D^m}}[\widehat{\mathfrak{R}}_S(G)].\;\;\;\;\;\;\;\;(3.2) Rm(G)=SDmE[R S(G)].(3.2)

  平均Rademacher复杂度移除了对特定样本集的依赖,更加平均地度量了一个函数族的复杂程度(但仍与分布有关)。

  在基于Rademacher复杂度推导第一个泛化边界之前,先介绍McDiarmid不等式。

McDiarmid不等式:令 ( x 1 , . . . , x m ) ∈ X m (x_1,...,x_m)∈X_m (x1,...,xm)Xm为独立随机变量的集合,假设存在 c 1 , . . . , c m > 0 c_1,...,c_m>0 c1,...,cm>0,使得 f : X → R f:X→R f:XR满足以下条件:
∣ f ( x 1 , . . . , x i , . . . , x m ) − f ( x 1 , . . . , x i ′ , . . . , x m ) ∣ ≤ c i , |f(x_1,...,x_i,...,x_m)−f(x_1,...,x_i ^\prime,...,x_m)|≤c_i, f(x1,...,xi,...,xm)f(x1,...,xi,...,xm)ci,
对所有的 i ∈ [ 1 , m ] i\in [1,m] i[1,m]以及任意的点 x 1 , . . . , x m , x i ′ ∈ X x_1,...,x_m,x_i ^\prime\in X x1,...,xm,xiX都成立。令 f ( S ) f(S) f(S) 表示 f ( x 1 , . . . , x m ) f(x_1,...,x_m) f(x1,...,xm),那么对所有的 ε > 0 \varepsilon>0 ε>0,下面的不等式成立:
P r [ f ( S ) − E [ f ( S ) ] ≥ ε ] ≤ exp ⁡ ( − 2 ε 2 ∑ i = 1 m c i 2 ) Pr[f(S)−E[f(S)]\ge\varepsilon]\le\exp(\frac{−2\varepsilon^2}{\sum_{i=1}^mc_i^2}) Pr[f(S)E[f(S)]ε]exp(i=1mci22ε2)
P r [ f ( S ) − E [ f ( S ) ] ≤ − ε ] ≤ exp ⁡ ( − 2 ε 2 ∑ i = 1 m c i 2 ) Pr[f(S)−E[f(S)]\le -\varepsilon]\le\exp(\frac{−2\varepsilon^2}{\sum_{i=1}^mc_i^2}) Pr[f(S)E[f(S)]ε]exp(i=1mci22ε2)

定理1

  设 G G G是一系列从 Z Z Z映射到 [ 0 , 1 ] [0,1] [0,1]的函数族。对任何 δ > 0 \delta > 0 δ>0 G G G中的每一个函数 g g g,都至少以 1 − δ 1−\delta 1δ概率,下述两个式成立:

E [ g ( z ) ] ≤ 1 m ∑ i = 1 m g ( z i ) + 2 R m ( G ) + log ⁡ 1 δ 2 m                ( 3.3 ) E [ g ( z ) ] ≤ 1 m ∑ i = 1 m g ( z i ) + 2 R ^ S ( G ) + 3 log ⁡ 2 δ 2 m                ( 3.4 ) \mathbb{E}[g(z)]\le\frac{1}{m}\sum_{i=1}^mg(z_i)+2\mathfrak{R}_m(G)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\;\;\;\;\;\;\;(3.3)\\ \mathbb{E}[g(z)]\le\frac{1}{m}\sum_{i=1}^mg(z_i)+2\widehat\mathfrak{R}_S(G)+3\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\;\;\;\;\;\;\;(3.4) E[g(z)]m1i=1mg(zi)+2Rm(G)+2mlogδ1 (3.3)E[g(z)]m1i=1mg(zi)+2R S(G)+32mlogδ2 (3.4)

证明:对于任意在 Z Z Z空间上的样本集 S = ( z 1 , … , z m ) S = (z_1,…,z_m) S=(z1,,zm)和任意函数 g ∈ G g∈G gG,用 E ^ S [ g ] \widehat{\mathbb{E}} _S [g] E S[g]来表示在 S S S上的 g g g的经验平均值: E ^ S [ g ] = 1 m ∑ i = 1 m g ( z i ) \widehat{\mathbb{E}} _S [g] = \frac{1}{ m }\sum _{i=1}^{m}g(z_i) E S[g]=m1i=1mg(zi)。利用McDiarmid不等式,在任意样本 S S S上定义函数 Φ \Phi Φ
Φ ( S ) = sup ⁡ g ∈ G ( E [ g ] − E ^ S [ g ] )                ( 3.5 ) \Phi(S)=\sup_{g\in G}(\mathbb{E}[g]-\widehat{\mathbb{E}}_S[g]) \;\;\;\;\;\;\; (3.5) Φ(S)=gGsup(E[g]E

  • 11
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值