Foundation of Machine Learning 笔记第六部分——成长函数

最新推荐文章于 2022-03-27 09:07:52 发布

路虽远在路上

最新推荐文章于 2022-03-27 09:07:52 发布

阅读量2.9k

点赞数 2

分类专栏： PAC 机器学习计算学习理论文章标签：机器学习读书笔记 PAC VC泛化界 VC理论

本文链接：https://blog.csdn.net/u010185894/article/details/64126835

版权

机器学习同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

PAC

8 篇文章 0 订阅

订阅专栏

计算学习理论

8 篇文章 1 订阅

订阅专栏

前言

注意事项：

这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记，但实际我是直接对书本的部分内容进行了个人翻译，如果这个行为有不妥当的地方，敬请告知。
由于知识面限制，部分名词的翻译可能存在错误，部分难以翻译的名词保留英文原词。为了防止误导大家，在这里声明本文仅供参考。
本文基本翻译自《Foundation of Machine Learning》的 3.2 节。

正文

3.2 成长函数

这里我们将展示如何用成长函数 ( growth function ) 表示Rademacher complexity 的上限。

定义 3.3 成长函数

定义一个假设集 $H$ 的成长函数 $\Pi_H:\mathbb{N}\to\mathbb{N}$ 为：

\forall m \in ℕ, Π H (m) = max {x 1, \dots, x m} \subseteq X | {(h (x 1), \dots, h (x m)) : h \in H} | . (3.19)

$\forall m \in \mathbb{N},\ \Pi_H(m)=\max_{\{x_1,\dots,x_m\}\subseteq X}\left|\left\{\left(h(x_1),\dots,h(x_m)\right):h\in H\right\}\right|.\tag{3.19}$ 因此，(3.19) 表示了

m m $m$ 个样本点最多能被假设集

H

$H$ 中的假设分成

ΠH(m) Π H ( m ) $\Pi_H(m)$ 种不同的情况。这提供了另一种量化假设集

H H $H$ 的丰富度的方法。但它不像 Rademacher complexity，这种方法不依赖于随机分布

D

$D$ ，它完全是组合数学上的 ( combinatorial )。

为了联系 Rademacher complexity 和成长函数，我们将使用 Massart 引理。为了证明 Massart 引理，我们要使用 Hoeffding 引理。

引理 D.1 Hoeffding 引理

$X$ 是一个期望 $E[X]=0$ 且在区间 $[a,b]$ 中取值的随即变量。那么对于任意的 $t >0$ ，下面的不等式成立：

E [e t X] \leq e t 2 ( b - a ) 2 8 . (D.2)

${\rm E}[e^{tX}]\le e^{\frac{t^2(b-a)^2}{8}}.\tag{D.2}$

证明证明略，以后补充。

疑问为什么这里要引入自然指数函数和一个变量 t 呢？我认为在 Hoeffding 引理的证明中，自然指数函数的作用是提供了一个凸函数，而凸函数的性质引出了一个能去掉数学期望运算符的 bound。而 t 的作用是提供了一个自由度去控制这个 bound，使得得到的不等式更加紧致 ( tight )。

定理 3.3 Massart 引理

用 $A\subseteq \mathbb{R}^m$ 代表一个有限集，其中 $r=\max_{x\in A}\Vert {\rm x} \Vert_2$ ，那么下式成立 ( 我的补充： $|A|$ 指的是 $A$ 这个集合中的元素个数，实际上这种表达是集合的基—— cardinal，在这里，这个基的意思就是集合元素个数 )：

\begin{matrix} (3.20) & \underset{σ}{E} [\frac{1}{m} sup_{x \in A} \sum_{i = 1}^{m} σ_{i} x_{i}] \leq \frac{r \sqrt{2 \log | A |}}{m}, \end{matrix}

$\mathop{{\rm E}}_{\sigma}\left[\frac{1}{m}\sup_{x\in A}\sum_{i=1}^m\sigma_ix_i\right]\le \frac{r\sqrt{2 \log{\vert A\vert}}}{m},\tag{3.20}$ 这里

σi σ i $\sigma_i$ 是一系列在

{−1,+1} { − 1 , + 1 } $\{-1,+1\}$ 上取值的独立的符合平均分布的随机变量，

x1,…,xm x 1 , … , x m $x_1,\dots,x_m$ 是向量

x x ${\rm x}$ 中的元素。

证明对于引理中不等式左侧项乘以任意 $t \gt 0$ ，然后求他的自然指数函数，得到 $\exp\left(t\mathop{{\rm E}}_{\sigma}[\sup_{x\in A}\sum_{i=1}^m\sigma_ix_i]\right)$ ( 我的理解：为什么这么做？我认为自然指数函数和 t 的引进是为了使得不等式能够使用 Hoeffding 引理 )。使用 Jensen 不等式、重组式子、以及使用累加大于上确界这个事实，我们得到：

exp (t E σ [sup x \in A \sum i = 1 m σ i x i]) \leq = E σ (exp [t sup x \in A \sum i = 1 m σ i x i]) E (sup x \in A exp [t \sum i = 1 m σ i x i]) \leq \sum x \in A E σ (exp [t \sum t = 1 m σ i x i]) . (1) (2)

$\begin{align}\exp\left(t\mathop{{\rm E}}_{\sigma}[\sup_{x\in A}\sum_{i=1}^m\sigma_ix_i]\right)\le &\mathop{{\rm E}}_\sigma\left(\exp[t\sup_{x\in A}\sum_{i=1}^m\sigma_ix_i]\right)\\ = &{\rm E}\left(\sup_{x\in A}\exp[t\sum_{i=1}^m\sigma_ix_i]\right)\le\sum_{x\in A}\mathop{{\rm E}}_\sigma\left(\exp[t\sum_{t=1}^m\sigma_ix_i]\right). \end{align}$ 接下来通过使用

σi σ i $\sigma_i$ 的相互独立性，通过使用 Hoeffding 引理和

r r $r$ 的定义，可以写出：

\begin{aligned} (3) \\ (4) & \exp (t \underset{σ}{E} [sup_{x \in A} \sum_{i = 1}^{m} σ_{i} x_{i}]) \leq & \sum_{x \in A} Π_{i = 1}^{m} \underset{σ_{i}}{E} (\exp [t σ_{i} x_{i}]) (通 过 上 述 不 等 式 和 σ_{i} 的 独 立 性) \\ (5) & \leq & \sum_{x \in A} Π_{i = 1}^{m} \exp [\frac{t^{2} (2 x_{i})^{2}}{8}] (Hoeffding 引 理) \\ (6) & = & \sum_{x \in A} \exp [\frac{t^{2}}{2} \sum_{i = 1}^{m} x_{i}^{2}] \leq \sum_{x \in A} \exp [\frac{t^{2} r^{2}}{2}] = | A | e^{\frac{t^{2} R^{2}}{2}} . \end{aligned}

$\begin{align} \\ \exp\left(t\mathop{{\rm E}}_{\sigma}[\sup_{x\in A}\sum_{i=1}^m\sigma_ix_i]\right) \le & \sum_{x\in A}\Pi_{i=1}^m\mathop{{\rm E}}_{\sigma_i}(\exp[t\sigma_ix_i])\quad (通过上述不等式和\sigma_i的独立性) \\ \le &\sum_{x \in A}\Pi_{i=1}^m\exp\left[\frac{t^2(2x_i)^2}{8}\right]\quad (\text{Hoeffding} 引理) \\ =&\sum_{x\in A}\exp\left[\frac{t^2}{2}\sum_{i=1}^mx^2_i\right]\le \sum_{x\in A}\exp\left[\frac{t^2r^2}{2}\right]=|A|e^{\frac{t^2R^2}{2}}. \end{align}$ 对两边求对数并除以 t 得到：

E σ [sup x \in A \sum i = 1 m σ i x i] \leq log | A | t + t r 2 2 . (3.21)

$\mathop{{\rm E}}_\sigma\left[\sup_{x\in A}\sum_{i=1}^m\sigma_ix_i\right]\le \frac{\log{|A|}}{t}+\frac{tr^2}{2}.(3.21)$ 如果我们选择使

t=2log|A|√r t = 2 log ⁡ | A | r $t=\frac{\sqrt{2\log{|A|}}}{r}$ ，就能最小化这个上限，得到：

E σ [sup x \in A \sum i = 1 m σ i x i] \leq r 2 log | A | ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt . (3.22)

$\mathop{{\rm E}}_{\sigma}\left[\sup_{x\in A}\sum_{i=1}^m\sigma_ix_i\right]\le r\sqrt{2\log{|A|}}.\tag{3.22}$ 两边同时除以

m m $m$ 得到引理。证毕。

使用这个结果，我们可以用成长函数表示 Rademacher complexity 的上限。

推论 3.1

$G$ 是一族在 $\{-1,+1\}$ 中取值的函数。那么有下式成立：

ℜ m (G) \leq 2 log Π G ( m ) m ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt . (3.23)

$\mathfrak{R}_m(G)\le \sqrt{\frac{2\log{\Pi_G(m)}}{m}}.\tag{3.23}$
证明对于一个固定的样本集

S=(x1,…,xm) S = ( x 1 , … , x m ) $S=(x_1,\dots,x_m)$ ，我们使用

G|S G | S $G_{|S}$ 表示

G G $G$ 中所有的函数

g

$g$ 在函数值向量

(g(x1),…,g(xm))⊤ ( g ( x 1 ) , … , g ( x m ) ) ⊤ $(g(x_1),\dots,g(x_m))^\top$ 构成的集合。由于

g∈G g ∈ G $g\in G$ ，且

g g $g$ 在

{- 1, + 1}

$\{-1,+1\}$ 中取值，所以函数值向量的二范数是小于等于

m‾‾√ m $\sqrt{m}$ 的 ( 我的补充：或者说一定等于

m‾‾√ m $\sqrt{m}$ ? )。我们可以使用 Massart 引理：

ℜ m (G) = E S [E σ [sup u \in G | S 1 m \sum i = 1 m σ i u i]] \leq E S [m ‾ ‾ \sqrt 2 log | G | S | ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt m] .

$\mathfrak{R}_m(G)=\mathop{\rm E}_S\left[\mathop{\rm E}_\sigma\left[\sup_{u\in G_{|S}}\frac{1}{m}\sum_{i=1}^m\sigma_iu_i\right]\right]\le\mathop{\rm E}_S\left[\frac{\sqrt{m}\sqrt{2\log{|G_{|S}|}}}{m}\right].$ 通过定义，可以知道

|G|S| | G | S | $|G_{|S}|$ 的上限——也就是

G|S G | S $G_{|S}$ 这个集合的元素个数的上限——是被成长函数所限制的 ( 我的理解：即使函数集

G G $G$ 的函数数目是无穷大的，由于

G_{| S}

$G_{|S}$ 是它作用在固定样本集

S S $S$ 上的结果，而

S

$S$ 的样本个数是有限的，

G G $G$ 把

S

$S$ 分成的不同情况的数目也是有限的，这个数目的上限正是成长函数的值)。因此，

ℜ m (G) \leq E S [m ‾ ‾ \sqrt 2 log | G | S | ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt m] = 2 log Π G ( m ) m ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt,

$\mathfrak{R}_m(G)\le\mathop{\rm E}_S\left[\frac{\sqrt{m}\sqrt{2\log{|G_{|S}|}}}{m}\right]=\sqrt{\frac{2\log{\Pi_G(m)}}{m}},$ 证毕。

把定理 (3.2) 中的泛化上界 (3.17) 与推论 (3.1) 结合起来，我们马上能得到下面使用成长函数表示的泛化上界。

推论 3.2 成长函数泛化上界

使用 $H$ 表示一族在 $\{-1,+1\}$ 中取值的函。那么，对于所有 $\delta\gt 0$ ，下列不等式对于所有假设 $h\in H$ 至少有 $1-\delta$ 的概率成立：

R (h) \leq R ̂ (h) + 2 log Π H ( m ) m ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt + log 1 δ 2 m ‾ ‾ ‾ ‾ ‾ ‾ \sqrt . (3.24)

$R(h)\le\hat R(h)+\sqrt{\frac{2\log{\Pi_H(m)}}{m}} + \sqrt{\frac{\log{\frac{1}{\delta}}}{2m}}.\tag{3.24}$ 成长函数泛化上界也可以不使用 Rademacher complexity 上界求，如果这样，上界的形式为：

P r [sup h \in H | R (h) - R ̂ (h) | > ϵ] \leq 4 Π H (2 m) exp (- m ϵ 2 8), (3.25)

${\rm Pr}\left[\sup_{h\in H}|R(h)-\hat R(h)|\gt \epsilon\right]\le 4\Pi_H(2m)\exp(-\frac{m\epsilon^2}{8}),\tag{3.25}$
这种形式成为 VC 泛化界 ( VC generalization bound )。本书中没有给出这种形式的泛化界的证明，我会在最后根据查阅的资料补充这部分的证明。

根据成长函数的定义，要求出成长函数我们需要对所有 $m\ge 1$ 求出 $\Pi_H(m)$ ，因此成长函数的计算可能是很困难的。下一节将引入另一个基于单一标量的度量假设集 $H$ 的方法，而这个方法和成长函数有很深的联系。

补充：VC 泛化界的证明

为了证明 VC 泛化界，这里需要使用切比雪夫不等式 ( Chebyshev )。

切比雪夫不等式

对于 $t > 0$ ， $X$ 为随机变量，有：

P r [| X - E [X] | \geq t] \leq \frac{V a r X}{t^{2}} .

${\rm Pr}[|X-{\rm E}[X]|\ge t]\le\frac{{\rm Var}X}{t^2}.$ 其中

Var V a r ${\rm Var}$ 表示方差。

证明证明暂略，以后添加。

如果我们尝试去理解 (3.25)，可以发现它实际表明了随着样本量增大，经验误差越来越接近泛化误差，换言之，也就是频率越来越接近概率。可以看到，研究泛化误差与经验误差之间的这种关系，能证明在样本量大到一定程度的时候，我们就能够通过样本集中的规律去预测未来的新样本的规律。

VC 泛化界证明的关键在于一个称为对称引理 ( symmetrization ) 的引理，这个引理的思想就是使用一个独立样本集的统计数据去代替泛化误差这一项。这么做的原因是显而易见的，它把泛化误差中无穷样本的问题变成了有限的样本的问题。但要注意的是，这里所谓的引入新的独立样本并不代表在实际算法中要抽取另一个样本集，这个新的样本集只是在数学证明上使用。所以，这个新的样本集一般被称为“虚拟集”或者“幽灵集”。我们使用 $S'=(x'_1,\dots,x'_m)$ 表示这个“幽灵集”。

Symmetrization 引理

设 $H$ 为一个假设集， $h\in H$ 。对于任意的 $t>0$ ，只要满足 $mt^2\ge2$ ，就有：

P r S [sup h \in H | R (h) - R ̂ S (h) | \geq t] \leq 2 P r S, S' [sup h \in H | R ̂ S' (h) - R ̂ S (h) | \geq t / 2] .

${\rm Pr}_S\left[\sup_{h\in H}|R(h)-\hat R_S(h)|\ge t\right]\le2{\rm Pr}_{S,S'}\left[\sup_{h\in H}|\hat R_{S'}(h)-\hat R_S(h)|\ge t/2\right].$

证明首先要注意的是，引理中的概率是与样本集相关的。

称 $h_m$ 为使得 $R(h)-\hat R_S(h)$ 最大的假设，那么有：

P r [sup h \in H | R (h) - R ̂ S (h) | \geq t] = \leq \leq \leq P r [| R (h m) - R ̂ S (h m) | \geq t] 1 1 - 1 m t 2 P r [| R ̂ S' (h m) - R ̂ S (h m) | \geq t / 2] 1 2 P r [| R ̂ S' (h m) - R ̂ S (h m) | \geq t / 2] 1 2 P r [sup h \in H | R ̂ S' (h) - R ̂ S (h) | \geq t / 2] . (1) (2) (3) (4)

$\begin{align}{\rm Pr}\left[\sup_{h\in H}|R(h)-\hat R_S(h)|\ge t\right]=&\ {\rm Pr}\left[|R(h_m)-\hat R_S(h_m)|\ge t\right]\tag{1} \\ \le & \ \frac{1}{1-\frac{1}{mt^2}}{\rm Pr}\left[|\hat R_{S'}(h_m)-\hat R_S(h_m)|\ge t/2\right]\tag{2} \\ \le & \ \frac{1}{2}{\rm Pr}\left[|\hat R_{S'}(h_m)-\hat R_S(h_m)|\ge t/2\right]\tag{3} \\ \le & \ \frac{1}{2}{\rm Pr}\left[\sup_{h\in H}|\hat R_{S'}(h)-\hat R_S(h)|\ge t/2\right].\tag{4}\end{align}$
首先，( 1 ) 由

hm h m $h_m$ 本身的定义得到。( 2 ) 的证明比较复杂，放在后面。由于有

mt2≥2 m t 2 ≥ 2 $mt^2\ge2$ ，( 3 ) 成立。由于当

|R̂ S′(hm)−R̂ S(hm)|≥t/2 | R ^ S ′ ( h m ) − R ^ S ( h m ) | ≥ t / 2 $|\hat R_{S'}(h_m)-\hat R_S(h_m)|\ge t/2$ 成立时，

suph∈H|R̂ S′(h)−R̂ S(h)|≥t/2 sup h ∈ H | R ^ S ′ ( h ) − R ^ S ( h ) | ≥ t / 2 $\sup_{h\in H}|\hat R_{S'}(h)-\hat R_S(h)|\ge t/2$ 必然成立，但是后者成立时前者未必成立，也就是说后者成立的概率较大，故 ( 4 ) 成立。

接下来的问题就变成 ( 2 ) 的证明了。我们把问题化成

(1 - 1 m t 2) P r [| R (h m) - R ̂ S (h m) | \geq t] \leq P r [| R ̂ S' (h m) - R ̂ S (h m) | \geq t / 2] .

$(1-\frac{1}{mt^2}){\rm Pr}\left[|R(h_m)-\hat R_S(h_m)|\ge t\right] \le \ {\rm Pr}\left[|\hat R_{S'}(h_m)-\hat R_S(h_m)|\ge t/2\right].$ 因为样本的抽取符合某一个分布

D D $D$ ，我们可以假设这个分布的概率密度函数为

f (S)

$f(S)$ 。由于抽取样本的过程是独立的，通过定义，右式可化成：

= = \geq = = P r [| R ̂ S' (h m) - R ̂ S (h m) | \geq t / 2] \int S, S' 1 | R ̂ S' (h m) - R ̂ S (h m) | \geq t / 2 \cdot f (S) \cdot f (S') d (S, S') \int S f (S) d S \int S' 1 | R ̂ S' (h m) - R ̂ S (h m) | \geq t / 2 \cdot f (S') d S' \int S f (S) d S \int S' 1 | R (h m) - R ̂ S (h m) | \geq t \cdot 1 | R (h m) - R ̂ S' (h m) | < t / 2 \cdot f (S') d S' \int S 1 | R (h m) - R ̂ S (h m) | \geq t \cdot f (S) d S \int S' 1 | R (h m) - R ̂ S' (h m) | < t / 2 \cdot f (S') d S' P r [| R (h m) - R ̂ S (h m) | \geq t] \cdot P r [| R (h m) - R ̂ S' (h m) | < t / 2] . (7) (5) (8) (6) (7) (8)

$\begin{align} & {\rm Pr}\left[|\hat R_{S'}(h_m)-\hat R_S(h_m)|\ge t/2\right] \\ = &\int_{S,S'}1_{|\hat R_{S'}(h_m)-\hat R_S(h_m)|\ge t/2}\cdot f(S)\cdot f(S')d(S,S')\tag{5} \\ =&\int_Sf(S)dS\int_{S'}1_{|\hat R_{S'}(h_m)-\hat R_S(h_m)|\ge t/2}\cdot f(S')dS' \\ \ge &\int_Sf(S)dS\int_{S'}1_{|R(h_m)-\hat R_S(h_m)|\ge t}\cdot1_{|R(h_m)- \hat R_{S'}(h_m)|\lt t/2}\cdot f(S')dS' \tag{6} \\ = & \int_S1_{|R(h_m)-\hat R_S(h_m)|\ge t}\cdot f(S)dS\int_{S'}1_{ |R(h_m)- \hat R_{S'}(h_m)|\lt t/2}\cdot f(S')dS' \tag{7} \\ = & {\rm Pr}\left[|R(h_m)-\hat R_S(h_m)|\ge t\right] \cdot {\rm Pr}\left[|R(h_m)- \hat R_{S'}(h_m)|\lt t/2\right].\tag{8}\end{align}$ 由概率分布函数的定义得知 ( 5 ) 成立，这里要注意的是这个不定积分是向量的不定积分，为了便于理解还可以继续展开，把

d(S,S′) d ( S , S ′ ) $d(S,S')$ 展开成

dx1,…,dxm,dx′1,…,dx′m d x 1 , … , d x m , d x 1 ′ , … , d x m ′ $dx_1,\dots,dx_m,dx_1',\dots,dx_m'$ ，类似的运算在这个系列博客的第五部分 < 1 >中有展示。由于只要事件

|R(hm)−R̂ S′(hm)|<t/2 | R ( h m ) − R ^ S ′ ( h m ) | < t / 2 $|R(h_m)- \hat R_{S'}(h_m)|\lt t/2$ 成立，使用绝对值不等式，马上得到

|R̂ S′(hm)−R̂ S(hm)|≥t/2 | R ^ S ′ ( h m ) − R ^ S ( h m ) | ≥ t / 2 $|\hat R_{S'}(h_m)-\hat R_S(h_m)|\ge t/2$ 成立，因此 ( 6 ) 成立。由于在 ( 6 ) 中已经把

S′ S ′ $S'$ 和

S S $S$ 的耦合解开了，( 7 ) 直接把他们分开，此时两个不定积分可以独立计算，根据概率分布函数的定义 ( 8 ) 成立。

已知 $R(h_m)={\rm E}[\hat R_{S'}(h_m)]$ ( 相类似的推导在这个系列博客的第五部分 < 1 > 中有体现 )，且 $t>0$ ，则有：

\leq \leq = = = \leq P r [| R (h m) - R ̂ S' (h m) | < t / 2] P r [| R (h m) - R ̂ S' (h m) | \geq t / 2] 4 V a r R ̂ S ' ( h m ) t 2 4 V a r [ 1 m \sum m i = 1 1 h m ( x ' i ) \neq y ' i ] t 2 4 V a r [ \sum m i = 1 1 h m ( x ' i ) \neq y ' i ] m 2 t 2 4 V a r [ 1 h m ( x ' ) \neq y ' ] m t 2 1 m t 2 . (9) (10) (9) (11) (12) (10) (11)

$\begin{align}&{\rm Pr}\left[|R(h_m)- \hat R_{S'}(h_m)|\lt t/2\right]\\ \le& {\rm Pr}\left[|R(h_m)- \hat R_{S'}(h_m)|\ge t/2\right] \\ \le& \frac{4{\rm Var} \hat R_{S'}(h_m)}{t^2}\tag{9} \\ =& \frac{4{\rm Var} [\frac{1}{m}\sum_{i=1}^m1_{h_m(x'_i)\neq y_i'}]}{t^2} \\ =& \frac{4{\rm Var} [\sum_{i=1}^m1_{h_m(x'_i)\neq y_i'}]}{m^2t^2} \\ =& \frac{4{\rm Var} [1_{h_m(x')\neq y'}]}{mt^2}\tag{10} \\ \le & \frac{1}{mt^2}.\tag{11} \end{align}$ 其中，由于符合切比雪夫不等式的要求，( 9 ) 成立。( 10 ) 中的

x′ x ′ $x'$ 和

y′ y ′ $y'$ 分别是从分布

D D $D$ 中取一次样得到的一个样本和它的标签，由于样本集

S^{'}

$S'$ 中每个样本都是独立采样的，且它们的分布都相同，所以他们的方差都相同且可以直接拆分出来，因此 ( 10 ) 成立。由方差的定义，我们可以知道当随机变量的值只为

0 0 $0$ 或者

1

$1$ 时，它的方差必然小于等于

14 1 4 $\frac{1}{4}$ ( 关键在于这个时候有

Pr[x=1]=E[x] P r [ x = 1 ] = E [ x ] ${\rm Pr}[x=1]={\rm E}[x]$ )，故 ( 11 ) 成立。把这个结果代回去，证毕。

VC 泛化界的证明

由于对称引理，我们可以把 VC 泛化界写成：

P r [sup h \in H | R (h) - R ̂ (h) | > ϵ] \leq 2 P r S, S' [sup h \in H | R ̂ S' (h) - R ̂ S (h) | \geq ϵ / 2] .

${\rm Pr}\left[\sup_{h\in H}|R(h)-\hat R(h)|\gt \epsilon\right]\le2{\rm Pr}_{S,S'}\left[\sup_{h\in H}|\hat R_{S'}(h)-\hat R_S(h)|\ge \epsilon/2\right].$ 把上式右侧看成先从样本空间中采一个

2m 2 m $2m$ 个样本的样本集

 D $\mathcal{D}$ ，然后随机从这个

2m 2 m $2m$ 中样本中选择

m m $m$ 个样本作为样本集

S

$S$ ，剩下的样本构成样本集

S′ S ′ $S'$ ，然后假设在这两个样本集中的经验误差的差距大于

ϵ/2 ϵ / 2 $\epsilon /2$ 的概，从而有：

= \leq = 2 P r  [sup h \in H | R ̂ S' (h) - R ̂ S (h) | \geq ϵ / 2] \int  P r [] P r [sup h \in H | R ̂ S' (h) - R ̂ S (h) | \geq ϵ / 2 ∣ ∣ ∣ ] d  sup  P r [sup h \in H | R ̂ S' (h) - R ̂ S (h) | \geq ϵ / 2 ∣ ∣ ∣ ] \cdot \int  P r [] d  sup  P r [sup h \in H | R ̂ S' (h) - R ̂ S (h) | \geq ϵ / 2 ∣ ∣ ∣ ] . (13) (14) (15) (16)

$\begin{align}&2{\rm Pr}_{\mathcal{D}}\left[\sup_{h\in H}|\hat R_{S'}(h)-\hat R_S(h)|\ge \epsilon/2\right] \\ =& \int_{\mathcal{D}}{\rm Pr} \left[\mathcal{D}\right]{\rm Pr}\left[\sup_{h\in H}|\hat R_{S'}(h)-\hat R_S(h)|\ge \epsilon/2\bigg|\mathcal{D}\right]d\mathcal{D} \\ \le & \sup_{\mathcal{D}}{\rm Pr}\left[\sup_{h\in H}|\hat R_{S'}(h)-\hat R_S(h)|\ge \epsilon/2\bigg|\mathcal{D}\right]\cdot\int_{\mathcal{D}}{\rm Pr}[\mathcal{D}]d\mathcal{D} \\ =& \sup_{\mathcal{D}}{\rm Pr}\left[\sup_{h\in H}|\hat R_{S'}(h)-\hat R_S(h)|\ge \epsilon/2\bigg|\mathcal{D}\right]. \end{align}$ 其中使用了全概率公式。

根据成长函数的定义，假设集 $H$ 中的所有假设最多能够把样本集 $\mathcal{D}$ 分成 $\Pi_H(2m)$ 种情况，也就是说 $\hat R_{S'}(h)$ 和 $\hat R_S(h)$ 最多有 $\Pi_H(2m)$ 种不同的情况，所以假设这些情况下对应的假设分别是 $h_1,\dots,h_{\Pi_H(2m)}$ ，有：

=≤≤supPr[suph∈H|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣]supPr[suph∈{h1,…,hΠH(2m)}|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣]sup∑m=1ΠH(2m)Pr[|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣]ΠH(2m)×supsuph∈HPr[|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣].(17)(18)(12)(19) (17) sup D P r [ sup h ∈ H | R ^ S ′ ( h ) − R ^ S ( h ) | ≥ ϵ / 2 | D ] (18) = sup D P r [ sup h ∈ { h 1 , … , h Π H ( 2 m ) } | R ^ S ′ ( h ) − R ^ S ( h ) | ≥ ϵ / 2 | D ] (12) ≤ sup D ∑ m = 1 Π H ( 2 m ) P r [ | R ^ S ′ ( h ) − R ^ S ( h ) | ≥ ϵ / 2 | D ] (19) ≤ Π H ( 2 m ) × sup D sup h ∈ H P r [ | R ^ S ′ ( h ) − R ^ S ( h ) | ≥ ϵ / 2 | D ] .

$\begin{align}&\sup_{\mathcal{D}}{\rm Pr}\left[\sup_{h\in H}|\hat R_{S'}(h)-\hat R_S(h)|\ge \epsilon/2\bigg|\mathcal{D}\right] \\ =&\sup_{\mathcal{D}}{\rm Pr}\left[\sup_{h\in \{h_1,\dots,h_{\Pi_H(2m)}\}}|\hat R_{S'}(h)-\hat R_S(h)|\ge \epsilon/2\bigg|\mathcal{D}\right] \\ \le & \sup_{\mathcal{D}}\sum_{m=1}^{\Pi_H(2m)}{\rm Pr}\left[|\hat R_{S'}(h)-\hat R_S(h)|\ge \epsilon /2 \bigg|\mathcal{D}\right]\tag{12} \\ \le & \Pi_H(2m)\times\sup_{\mathcal{D}} \sup_{h\in H}{\rm Pr}\left[|\hat R_{S'}(h)-\hat R_S(h)|\ge \epsilon /2 \bigg|\mathcal{D}\right]. \end{align}$ 其中 ( 12 ) 中使用了 union bound。如果我们再对上式右侧进行一点修改使得原式变成：

Π H (2 m) \times sup  sup h \in H P r [| R ̂ S (h) - R ̂ S ( h ) + R ̂ S ' ( h ) 2 | \geq ϵ / 4 ∣ ∣ ∣ ] .

$\Pi_H(2m)\times\sup_{\mathcal{D}} \sup_{h\in H}{\rm Pr}\left[|\hat R_{S}(h)-\frac{\hat R_S(h) +\hat R_{S'}(h) }{2}|\ge \epsilon /4\bigg|\mathcal{D}\right].$ 由经验误差的定义我们可以知道

R̂ S(h)+R̂ S′(h)2 R ^ S ( h ) + R ^ S ′ ( h ) 2 $\frac{\hat R_S(h) +\hat R_{S'}(h) }{2}$ 其实就是样本

 D $\mathcal{D}$ 中一个样本出错的均值，而

R̂ S(h) R ^ S ( h ) $\hat R_{S}(h)$ 是

m m $m$ 个样本中出错的样本数总和。可以看到这个式子和前面讲到的 Hoeffding 不等式的左侧差不多了，只有一个差距：这里的抽样是无放回的抽样，也就是说每抽取一个样本，下一个样本的分布都会改变，而之前的抽样都是独立同分布。事实上对于无放回抽样，同样有它的 Hoeffding 不等式，并且它的 Hoeffding 不等式和有放回的是一样的 ( Hoeffding, 1962 )。要注意的是，Hoeffding 不等式与随机变量的具体分布式无关的，也就是说在这里无论对于任何的样本集

D

$\mathcal{D}$ 和任意的假设

h h $h$ ( 包括使得目标概率最大的那个样本集和假设 )，都有：

P r [| {\hat{R}}_{S} (h) - \frac{{\hat{R}}_{S} (h) + {\hat{R}}_{S^{'}} (h)}{2} | \geq ϵ / 4 | D] \leq 2 e^{- \frac{1}{8} ϵ^{2} m} .

${\rm Pr}\left[|\hat R_{S}(h)-\frac{\hat R_S(h) +\hat R_{S'}(h) }{2}|\ge \epsilon /4 \bigg|\mathcal{D}\right]\le 2e^{-\frac{1}{8}\epsilon^2m}.$ 这样，VC 泛化限得证。这个推导过程一步一步地把多个变量固定，仅留下一个变量，最终用 Hoeffding 不等式解决问题。影响目标事件的因素有假设的选取、样本集

 D $\mathcal{D}$ 的抽取、样本的分配，证明过程先后固定了前二者，最后通过在后者上使用大数定律给出上限。

以上的证明方法来自书本 Learning from Data: a Short Course 的附录。Vapnik 和 Chervonenkis 1971 年的论文 On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities 中使用的是另一种稍有不同的方法。另外，在 A Probabilistic Theory of Pattern Recognition 这本书定理 12.5 以及维基百科 Vapnik–Chervonenkis theory 都提出了一种形式与上面有出入但仅仅是在常数项上有区别的 VC 不等式，但我没有过多探究，也许这个不等式的条件与我们上面的 VC 泛化界有不一样的地方。

我的疑惑

VC 泛化界的两种证明都把问题考虑成先取 $2m$ 个样本，然后对样本进行分组，这样一来，两个样本集之间已经不独立了。我尝试过把两个样本集中所有的样本都看做是相互独立的，直接使用 Hoeffding 不等式，然后发现得到的上限比 VC 泛化界中的要小，显然是个错误的解。为了理解 VC 泛化界的推导，我猜测采样过程不附带分组和排序等效应，所以目标事件的影响因子除了包括采样分布和假设的选取以外，还有样本分组带来的变化。

2018年3月25日更新：今天重新看了一下自己写的这段话，发现自己都不是很理解自己的意思了，有点尴尬。这里尝试对这段话进行一个整理吧：在证明当中，两个样本集是不独立的。为什么不独立呢？原因是因为分组操作引进了一个概率分布。当然这是我隔了很久一段时间后能够回想得到的理解，很大概率是有错误的。

路虽远在路上

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Foundation of Machine Learning 笔记第六部分——成长函数

前言注意事项：这个系列的文章虽然题为书本《Foundation of Machine Learning》的读书笔记，但实际我是直接对书本的部分内容进行了个人翻译，如果这个行为有不妥当的地方，敬请告知。由于知识面限制，部分名词的翻译可能存在错误，部分难以翻译的名词保留英文原词。为了防止误导大家，在这里声明本文仅供参考。本文基本翻译自《Foundation of Machine Lear...
复制链接

扫一扫

专栏目录