前言
注意事项:
- 这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记,但实际我是直接对书本的部分内容进行了个人翻译,如果这个行为有不妥当的地方,敬请告知。
- 由于知识面限制,部分名词的翻译可能存在错误,部分难以翻译的名词保留英文原词。为了防止误导大家,在这里声明本文仅供参考。
- 本文基本翻译自《Foundation of Machine Learning》的3.1节。
正文
机器学习中所用到的假设集一般是无穷大的。但是上一章中的样本复杂度上限并不能应付假设集无穷大的情况 (假设集无穷大会导致其不等式右侧也变得无穷大)。当假设集无限大时,我们甚至于不知道是否存在能够从有限的样本中高效地找出目标假设的算法。这一章将引出无穷大假设集下通用的样本复杂度上限。
为了引出这样一个样本复杂度上限,一个简单的想法是:把假设集中无穷多的假设分解为有限多类,然后通过上一章的方法求出样本复杂度上限。通过很多种技巧我们可以对假设集进行分解,而每个技巧对应着不同的描述假设集复杂度的概念。我们将使用的第一个复杂度概念是 Rademacher Complexity。它将帮助我们通过相对简单的证明引出学习保证,证明过程中将会使用 McDiarmid 不等式,这样能得到高质量的上限。但是,对于某些假设集,Rademacher Complexity 的计算复杂度是 NP-难的。因此,我们接下来会引入其他两个纯粹的组合概念:成长函数和 VC 维。我们首先把成长函数和 Rademacher Complexity 联系起来,然后找到成长函数的上限,而这个上限是与 VC 维的值相关的。VC 维往往更加容易去测量,或者可以更加容易地求出其上限。这样,我们就得到了一种基于 VC 维的泛化限制了。最后,我们会根据 VC 维给出假设集一致和不一致两种情况下的学习限制,这将证明 VC 维在学习中的重要地位。
3.1 Rademacher Complexity
我们将继续用 H H H 指代一个假设集,用 h h h 指代 H H H 中的一个元素。这一节的结论对于任意损失函数 L : Y × Y → R L:\mathcal{Y}\times \mathcal{Y}\to \mathbb{R} L:Y×Y→R 都成立。对于每一个 h h h,我们不明确地写出损失函数 L L L 是何种形式,而是定义一个从 ( x , y ) ∈ X × Y (x,y)\in\mathcal{X}\times\mathcal{Y} (x,y)∈X×Y 映射到 L ( h ( x ) , y ) L(h(x),y) L(h(x),y) 的函数 g g g。然后 G G G 定义为与 H H H 相关的损失函数族。
Rademacher Complexity 通过计算假设集拟合随机噪声的能力,量化了一族函数的丰富度。下面是 empirical Rademacher complexity 和 average Rademacher complexity 的定义。
定义3.1 Empirical Rademacher complexity
把 G G G 看做是一族从样本空间 Z Z Z 映射到 [ a , b ] [a,b] [a,b] 的函数,把 S = ( z 1 , … , z m ) S=(z_1,\dots,z_m) S=(z1,…,zm) 看做是一个样本量固定的样本集,其中的每个样本都从 Z Z Z 中抽取。那么, G G G 关于样本集 S S S 的 empirical Rademacher complexity 定义为: R ^ S ( G ) = E σ [ sup g ∈ G 1 m ∑ i = 1 m σ i g ( z i ) ] , (3.1) \hat{\mathfrak{R}}_S(G)=\mathop{{\rm E}}_\sigma \left[\sup_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i)\right],\tag{3.1} R^S(G)=Eσ[g∈Gsupm1i=1∑mσig(zi)],(3.1)这里 σ = ( σ 1 , … , σ m ) ⊤ \sigma={(\sigma_1,\dots,\sigma_m)}^\top σ=(σ1,…,σm)⊤,其中 σ i \sigma_i σi 是从 { − 1 , + 1 } \{-1,+1\} {−1,+1} 中取值的相互独立的均匀分布。称随机变量 σ i \sigma_i σi 为 Rademacher 变量。
设 g S = ( g ( z 1 ) , … , g ( z m ) ) ⊤ g_S = (g(z_1),\dots,g(z_m))^\top gS=(g(z1),…,g(zm))⊤。那么,empirical Rademacher complexity 可以写成 R ^ S ( G ) = E σ [ sup g ∈ G σ ⋅ g S m ] . \hat{\mathfrak{R}}_S(G)=\mathop{{\rm E}}_{\sigma}\left[\sup_{g\in G}\frac{\sigma\cdot g_S}{m}\right]. R^S(G)=Eσ[g∈Gsupmσ⋅gS]. 內积 σ ⋅ g S \sigma \cdot g_S σ⋅gS 量化了 g S g_S gS 和随机变量向量 σ \sigma σ 之间的相关性。因此,empirical Rademacher complexity 表示函数族 G G G 在样本集 S S S 上的输出与随机噪声的相关性的均值 。它描述了 G G G 的丰富度:越是丰富越是复杂的函数族 G G G 可以产生更多种不同的向量 g S g_S gS,他们就能与随机噪声拟合得更好( 我的理解:我在看到这里的时候有点懵了。我不严谨地把 ( 3.1 ) (3.1) (3.1) 的含义理解为, 对于给定的 G G G 和样本,如果给定一组随机噪声,我们测量 G G G 中与随机噪声拟合得最好的那个函数的拟合效果,这就代表了 G G G 对噪声的拟合能力。但是对仅仅一组噪声的拟合能力并不能说明 G G G 的丰富度有多高,起码不具说服力,所以要取 G G G 对多组噪声的拟合程度的均值 )。
定义 3.2 Rademacher complexity
把 D D D 看做是抽取样本的随机分布。对于任意整数 m > 1 m\gt 1 m>1, G G G 的 Rademacher complexity 就是它在分布 D D D 产生的所有样本集上的 empirical Rademacher complexity 的数学期望( 我的理解:empirical Rademacher complexity 描述了假设集对一组样本的表达的丰富度,而 Rademacher complexity 描述的是假设集对一个分布的表达的丰富度 ): R m ( G ) = E S ∼ D m [ R ^ S ( G ) ] . (3.2) \mathfrak{R}_m(G)=\mathop{\rm E}_{S\sim D^m}\left[ \hat {\mathfrak{R}}_S(G) \right].\tag{3.2} Rm(G)=ES∼Dm[R^S(G)].(3.2)
在下面的与 Rademacher complexity 相关的一些不等式的证明当中,将会用到一个叫 McDiarmid 不等式的集中不等式 ( Concentration Inequality ),和凸优化中的 Jensen 不等式。书本的附录中提供了这些不等式的证明。
定理 D.3 McDiarmid 不等式
设
X
1
,
…
,
X
m
∈
X
m
X_1,\dots,X_m\in \mathcal{X}^m
X1,…,Xm∈Xm 为一个
m
>
1
m\gt1
m>1 个独立随机变量组成的集合,并且假设存在
c
1
,
…
,
c
m
>
0
c_1,\dots,c_m \gt 0
c1,…,cm>0,使得某个函数
f
:
X
m
→
R
f:\mathcal{X}^m\to \mathbb{R}
f:Xm→R 对所有的
i
∈
[
1
,
m
]
i\in [1,m]
i∈[1,m] 和随机变量 $\mathcal{X} $ 的任意样本点
x
1
,
…
,
x
m
,
x
i
′
x_1,\dots,x_m,x'_i
x1,…,xm,xi′ 满足以下条件:
∣
f
(
x
1
,
…
,
x
i
,
…
,
x
m
)
−
f
(
x
1
,
…
,
x
i
′
,
…
,
x
m
)
∣
≤
c
i
.
(D.12)
|f(x_1,\dots,x_i,\dots,x_m)-f(x_1,\dots,x'_i,\dots,x_m)|\le c_i.\tag{D.12}
∣f(x1,…,xi,…,xm)−f(x1,…,xi′,…,xm)∣≤ci.(D.12)我们用
f
(
S
)
f(S)
f(S) 代替
f
(
X
1
,
…
,
X
m
)
f(X_1,\dots,X_m)
f(X1,…,Xm),那么对于所有的
ϵ
>
0
\epsilon \gt 0
ϵ>0,下面的不等式成立:KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲\\ {\rm Pr}[f(S…我们使
δ
2
=
exp
(
−
2
ϵ
2
∑
i
=
1
m
c
i
2
)
\frac{\delta}{2}=\exp\left(\frac{-2\epsilon^2}{\sum_{i=1}^mc^2_i}\right)
2δ=exp(∑i=1mci2−2ϵ2),这么做的理由是方便下面相关定理的证明,我们用
δ
\delta
δ 来表示
ϵ
\epsilon
ϵ,解得
ϵ
=
ln
2
δ
2
m
\epsilon = \sqrt{\frac{\ln{\frac{2}{\delta}}}{2m}}
ϵ=2mlnδ2。那么我们能换一种说法表达 (D.13) 和 (D.14):对于任意
δ
>
0
\delta >0
δ>0,下列不等式各自最多有
δ
/
2
\delta/2
δ/2 的概率成立KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲\\ f(S)\ge \mat…
证明 暂略,以后补充。
定理 B.4 Jensen 不等式
用
X
X
X 表示定义在一个非空凸集
C
⊆
R
N
C \subseteq \mathbb{R}^N
C⊆RN 中、数学期望 ${\rm E}[X] $ 有限的随机变量,定义
f
f
f 为定义在
C
C
C 上的一个可测凸函数。那么, 可以证明${\rm E}[X] $ 的值也将在
C
C
C 中、${\rm E}[f(X)] $ 有限、且下面的不等式成立:
f
(
E
[
X
]
)
≤
E
[
f
(
X
)
]
.
f({\rm E}[X])\le {\rm E}[f(X)].
f(E[X])≤E[f(X)].
证明 暂略,以后补充。
基于 Rademacher complexity,我们准备要引出第一个泛化上限了。
定理 3.1
把
G
G
G 看作是一族从
Z
Z
Z 映射到
[
0
,
1
]
[0,1]
[0,1] 的函数。那么,对于任意
δ
>
0
\delta \gt 0
δ>0,下列不等式对于所有
g
∈
G
g \in G
g∈G 至少有
1
−
δ
1-\delta
1−δ 的概率成立:KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲\\ &{\rm E}[g(z…证明 对于任意的样本集
S
=
(
z
1
,
…
,
z
m
)
S=(z_1,\dots,z_m)
S=(z1,…,zm) 和任意的
g
∈
G
g\in G
g∈G,我们用
E
^
S
[
g
]
\hat{\rm E}_S[g]
E^S[g] 指代
g
g
g 在样本集
S
S
S 上的均值:
E
^
S
[
g
]
=
1
m
∑
i
=
1
m
g
(
z
i
)
\hat{\rm E}_S[g]=\frac{1}{m}\sum_{i=1}^mg(z_i)
E^S[g]=m1∑i=1mg(zi)。称
E
^
S
[
g
]
\hat{\rm E}_S[g]
E^S[g] 为
g
g
g 的经验均值 ( 我的理解:那么
E
[
g
]
{\rm E}[g]
E[g] 表示假设
g
g
g 在样本空间中所有样本上输出的数学期望。书中没有明确定义它,为了便于说明,我定义它为
g
g
g 的“泛化均值”)。定义一个与样本集
S
S
S 相关的函数为 ( 我的理解:函数
Φ
\Phi
Φ 的含义是
g
g
g 的泛化均值与经验均值的差的上界 ):
Φ
(
S
)
=
sup
g
∈
G
(
E
[
g
]
−
E
^
S
[
g
]
)
.
(3.5)
\Phi (S)=\sup_{g \in G}({\rm E}[g]-\hat {\rm E}_S[g]).\tag{3.5}
Φ(S)=g∈Gsup(E[g]−E^S[g]).(3.5)这里将通过对函数
Φ
\Phi
Φ 使用 McDiarmid 不等式证明定理。设
S
S
S 和
S
′
S'
S′ 为只有一个样本点不一致的两个样本集,比如认为
S
S
S 中的第
m
m
m 个点为
z
m
z_m
zm,而
S
′
S'
S′ 中的第
m
m
m 个点为
z
m
′
z'_m
zm′。那么,由于上确界的差不大于差的上确界 ( 我的理解:可以用反证法证明,假设
sup
x
f
(
x
)
−
sup
x
g
(
x
)
≥
sup
x
[
f
(
x
)
−
g
(
x
)
]
\sup_xf(x) - \sup_xg(x) \ge \sup_x{[f(x)-g(x)]}
supxf(x)−supxg(x)≥supx[f(x)−g(x)],且函数
g
(
x
)
g(x)
g(x) 和函数
f
(
x
)
f(x)
f(x) 有相同定义域,设
f
(
x
′
)
=
sup
x
f
(
x
)
f(x')=\sup_xf(x)
f(x′)=supxf(x),那么有
f
(
x
′
)
−
g
(
x
′
)
≥
f
(
x
′
)
−
sup
x
g
(
x
)
≥
sup
x
[
f
(
x
)
−
g
(
x
)
]
f(x') - g(x') \ge f(x') - \sup_xg(x) \ge \sup_x{[f(x)-g(x)]}
f(x′)−g(x′)≥f(x′)−supxg(x)≥supx[f(x)−g(x)]),这与上确界的定义相矛盾。虽然书中比较的是泛函之间的关系,但同样应该能由此类推),我们有 :
Φ
(
S
′
)
−
Φ
(
S
)
≤
sup
g
∈
G
[
E
^
S
[
g
]
−
E
^
S
′
[
g
]
]
=
sup
g
∈
G
g
(
z
m
)
−
g
(
z
m
′
)
m
≤
1
m
.
(3.6)
\Phi(S')-\Phi(S) \le \sup_{g \in G}\left[\hat{\rm E}_S[g] - \hat{\rm E}_{S'}[g] \right]=\sup_{g\in G}{\frac{g(z_m)-g(z'_m)}{m}}\le \frac{1}{m}.\tag{3.6}
Φ(S′)−Φ(S)≤g∈Gsup[E^S[g]−E^S′[g]]=g∈Gsupmg(zm)−g(zm′)≤m1.(3.6)通过同样的方法,我们也可以得到
Φ
(
S
)
−
Φ
(
S
′
)
≤
1
/
m
\Phi(S)-\Phi(S')\le 1/m
Φ(S)−Φ(S′)≤1/m,因此有
∣
Φ
(
S
)
−
Φ
(
S
′
)
∣
≤
1
/
m
|\Phi(S)-\Phi(S')| \le 1/m
∣Φ(S)−Φ(S′)∣≤1/m ( 我的理解:这也不难理解,同一个假设集
g
g
g 在两个只有一个元素相异的样本集上的经验均值相差不过
1
/
m
1/m
1/m,那么这两种情况下的经验均值与泛化均值的差
Φ
\Phi
Φ 的差异也不超过
1
/
m
1/m
1/m )。那么,通过 McDiarmid’s inequality,对于任意的
δ
>
0
\delta \gt 0
δ>0,下面的不等式至少有
1
−
δ
/
2
1-\delta /2
1−δ/2 的概率成立:
Φ
(
S
)
≤
E
S
[
Φ
(
S
)
]
+
log
2
δ
2
m
.
(3.7)
\Phi(S)\le\mathop{{\rm E}}_S[\Phi(S)]+\sqrt{\frac{\log{\frac{2}{\delta}}}{2m}}.\tag{3.7}
Φ(S)≤ES[Φ(S)]+2mlogδ2.(3.7)接下来我们限制上述不等式右侧的上限:KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲\\ \mathop{{\rm…
下面展开证明上述式子。首先是 (3.8),为了书写方便我们把
S
′
S'
S′ 换成
S
=
(
z
1
,
…
,
z
m
)
S=(z_1,\dots,z_m)
S=(z1,…,zm),且省略定积分符号的上标和下标,也就是说虽然这里的积分符号都没上下标,但他们表示的不是不定积分,而是定积分:KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲\\ \mathop{\rm …
因为一个确定的函数的上确界是个常数,所以可以认为取上确界是个凸函数,那么不等式 (3.9) 就可以由 Jensen 不等式保证。在等式 (3.11) 中,我们引入了 Rademacher 变量
σ
i
\sigma_i
σi,如定义 3.2 中所说的一样,是一组独立且在
−
1
,
+
1
{-1,+1}
−1,+1 上符合均匀分布的随机变量。加入这些随机变量不会改变 (3.10) 中的期望,因为:当
σ
i
=
1
\sigma_i=1
σi=1 时,这一项不变;当
σ
i
=
−
1
\sigma_i=-1
σi=−1 时,这一项的符号改变,也就是相当于把
z
i
z_i
zi 和
z
i
′
z'_i
zi′ 的位置交换,使得
z
i
z_i
zi 变成
S
′
S'
S′ 中的元素,
z
i
′
z_i'
zi′ 变成
S
S
S 中的元素。因为我们最终要求他们在所有可能的
S
S
S 和
S
′
S'
S′ 上的数学期望,这种交换不会影响最终的期望。我们只是改变了对
z
i
z_i
zi 和
z
i
′
z_i'
zi′ 的积分顺序(2018年3月27日勘误:此处原文为"我们只是改变了对
z
i
z_i
zi 和
z
i
−
1
z_{i-1}
zi−1 的求导顺序"。觉得和内容不太一致,故做了修改)。(3.12) 由上确界函数的次可加性保证,
sup
(
U
+
V
)
≤
sup
(
U
)
+
sup
(
V
)
\sup(U+V)\le \sup(U)+\sup(V)
sup(U+V)≤sup(U)+sup(V)。(3.2) 可由 Rademacher complexity 的定义、以及
σ
i
\sigma_i
σi、
−
σ
i
-\sigma_i
−σi 是相同的分布这个事实保证。
等式 (3.13) 中
R
m
(
G
)
\mathfrak{R}_m(G)
Rm(G) 的推导证明了等式 (3.3),虽然它用的是
δ
\delta
δ,而不是
δ
/
2
\delta /2
δ/2。为了引出带
R
^
S
(
G
)
\hat{\mathfrak{R}}_S(G)
R^S(G) 这一项的上限,通过定义 3.2,我们发现
S
S
S 中的一个点发生改变时
R
^
S
(
G
)
\hat {\mathfrak{R}}_S(G)
R^S(G) 的值最多改变
1
/
m
1/m
1/m。那么,再次使用 McDiarmid 不等式,下式至少有
1
−
δ
/
2
1-\delta/2
1−δ/2 的概率成立:
R
m
(
G
)
≤
R
^
S
(
G
)
+
log
2
δ
2
m
.
(3.14)
\mathfrak{R}_m(G) \le \hat {\mathfrak{R}}_S(G) +\sqrt{\frac{\log{\frac{2}{\delta}}}{2m}}.\tag{3.14}
Rm(G)≤R^S(G)+2mlogδ2.(3.14)
最终,我们使用 union bound 联合不等式 (3.7) 和 (3.14),证得下式至少有
1
−
δ
1-\delta
1−δ 的概率成立:
Φ
(
S
)
≤
2
R
^
S
(
G
)
+
3
log
2
δ
2
m
,
(3.15)
\Phi(S)\le2\hat {\mathfrak{R}}_S(G) +3\sqrt{\frac{\log{\frac{2}{\delta}}}{2m}},\tag{3.15}
Φ(S)≤2R^S(G)+32mlogδ2,(3.15)该式符合 (3.4)。证毕。
PS
本节内容比较多,我分成两部分写了。下部分将在下一篇博客中写。