泛化误差上界的证明【内含霍夫丁不等式（Hoeffding‘s Inequality）的证明】

最新推荐文章于 2023-05-05 15:34:03 发布

置顶不乏希望

最新推荐文章于 2023-05-05 15:34:03 发布

阅读量5.4k

点赞数 30

分类专栏：笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_43872529/article/details/104362791

版权

笔记专栏收录该内容

35 篇文章 7 订阅

订阅专栏

文章目录

先导内容
重点来了！霍夫丁不等式的证明
紧接着对泛化误差上界进行证明
- 一、首先我们引入霍夫丁不等式定理
- 二、然后进入到泛化误差的场景中

本篇博客旨在补充李航老师在《统计学习方法》第一章中关于Hoeffding’s Inequality的证明，明白了它的由来才能对泛化误差上界有更深刻的认识。

温馨提示：最好在电脑端阅读，因为手机屏幕太小，所书写的公式无法施展才华。但是如果可以容忍一丢丢瑕疵的话，也可以在手机上阅读。

先导内容

一、泛化能力（generalization ability）

泛化能力表示学习方法学习到的模型对未知数据的预测能力。

二、泛化误差（generalization error）

泛化误差表示用学习到的模型对未知数据进行预测的误差，定义如下：（假设学到的模型为 $\widehat{f}$ ，L为损失函数）
$\begin{aligned} R_{exp}(\widehat{f}) & = E_p[L(Y,\widehat{f}(X)] \\ & = \int_{X\times Y} L(y,\widehat{f}(x))P(x,y)dxdy \end{aligned}$ 泛化误差也就是所学模型的误差期望值（即期望风险），反映了学习方法的泛化能力。

三、泛化误差上界（generalization error bound）

对于泛化能力的分析通常是根据泛化误差上界来确定的，因为它代表的是泛化能力的下界，也就是所谓的保底值，如果保底值能够提升，那么模型的整体泛化能力就能够得到提升。
（注意：因为泛化误差定义式中的损失函数所求得的值为负数，所以它必定存在一个上界）
在这里插入图片描述
泛化误差上界的定义如下：对于二类分类问题，当假设空间是有限个函数的集合 $\mathcal{F}=\{f_1,f_2,...,f_d\}$ 时，对任意一个函数 $f\in\mathcal{F}$ ，至少以概率 $1-\delta\ (0<\delta<1)$ ，使得以下不等式成立：
$\leq\ \widehat{R}(f) \ +\ \varepsilon(d,N,\delta)$
其中，
$\varepsilon(d,N,\delta) = \sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})}$
不等式中左侧的 $R (f)$ 是泛化误差，右侧的即是泛化误差上界，其中的 $\widehat{R}(f)$ 是训练过程中的误差，而 $\varepsilon(d,N,\delta)$ 相当于一个纠正量，是 $N$ 的单调递减函数，当 $N$ 趋近无穷时趋向 0，同时它也是 $l o g d$ 阶的函数，假设空间包含的函数越多时， $d$ 的值越大，即它的值也越大。
值得注意的是，该不等式是根据霍夫丁不等式推导而来，但是霍夫丁不等式同样需要证明是正确的才能进行使用。

重点来了！霍夫丁不等式的证明

霍夫丁不等式的证明遵循下图中的证明过程，需要先证明马尔可夫不等式、切比雪夫不等式、切诺夫界和霍夫丁引理，才能够对霍夫丁不等式进行证明。
在这里插入图片描述

一、Markov’s Inequality（马尔可夫不等式）

定理：设 $\ge 0$ 为一个非负的随机变量，对任意的 $t > 0$ ，有：
$\ge t)\ \le \ \frac{E(Z)}{t}$
证明如下:
$\ge t) = E[1_{\{Z \ge t\}} ]\le E[\frac{Z}{t}1_{\{Z \ge t\}} ] \le \frac{E(Z)}{t}$

注意： $1_{\{Z \ge t\}}$ 表示的是事件 $Z\ge t$ 发生的时候为 $1$ ，否则为 $0$ 。所以当随机情况下， $1_{\{Z \ge t\}} \le 1$ 。

二、Chebyshev’s Inequality（切比雪夫不等式）

定理：设 $Z$ 是一个属于 $R$ 集合的随机变量，且均值为 $\mu$ ，方差为 $\sigma^2$ ，有：
$\mu|\ \ge\ \sigma t)\ \le \ \frac{1}{t^2}$
证明如下：

$\begin{aligned} P(|Z - \mu|\ \ge\ \sigma t) & = \color{red}P[\ (Z-\mu)^2 \ge \ \sigma^2 t^2\ ] \\ & \color{red} \le \frac{E[\ (Z-\mu)^2\ ]}{ \sigma^2 t^2} \color{black} = \frac{ \sigma^2}{\sigma^2 t^2} =\frac{1}{t^2} \end{aligned}$
注意：红色部分使用的是马尔可夫不等式 $!$

三、Chernoff’s bound（切诺夫界）

设 $Z$ 是一个属于 $R$ 集合的随机变量，任意的 $t > 0$ ，有：
$\ge t)\ \le \ e^{-st} M_Z(s) \ \ \ \ \ \ (s>0)$
证明如下：对任意的 $s > 0$ ，
$\begin{aligned} P(Z \ge t) & = P(sZ\ge st) \\ & = \color{red}P(e^{sZ}\ge e^{st}) \\ &\color{red} \le \frac{E(e^{sZ})}{e^{st}} \color{black} = \frac{M_Z(s)}{e^{st}} \end{aligned}$

注意：红色部分使用的是马尔可夫不等式 $!$

补充内容： $M_Z(s)$ 表示的是矩量母函数（moment-generating function），当满足特定条件时， $E(e^{sZ})=M_Z(s)$ 。

四、Hoeffding’s lemma（霍夫丁引理）

定理：设随机变量 $Z\in [\ a, b\ ]$ ，对任意的 $\lambda \in R$ ，有：（这里使用 $e x p (x)$ 代替 $e^x$ ）
$E[\ exp(\ \lambda(Z-E(Z))\ )\ ]\le exp(\frac{\lambda ^2(b-a)^2}{8})$
证明：为了使推导过程更加简洁，令 $E (Z) = 0$ ，如果取其他值也并不影响结果，即有：
$E[\ exp(\ \lambda(Z-E(Z))\ )\ ] = E[\ exp(\lambda Z)\ ]\tag{1}$
1. 设 $\alpha b +(1-\alpha)a$ ，其中 $\alpha = \frac{Z-a}{b-a}\ ,\ 1-\alpha=\frac{b-Z}{b-a}$ ，令 $exp(\lambda Z)$ ，因为 $g (Z)$ 是一个凹函数，所以可以得到：
$\begin{aligned} g(Z) & =g[\ \alpha b +(1-\alpha)a \ ] \\ & \le \alpha g(b)+(1-\alpha)g(a) \\ & = \frac{Z-a}{b-a}\ g(b) + \frac{b-Z}{b-a}\ g(a) \\ & = \frac{Z-a}{b-a}\ exp(\lambda b)+ \frac{b-Z}{b-a}\ exp(\lambda a) \end{aligned}$
即得： $\le \frac{Z-a}{b-a}\ exp(\lambda b)+ \frac{b-Z}{b-a}\ exp(\lambda a) \tag{2}$
(事实上，在国外的论述中，我们所谓的凹函数是他们的凸函数，它们是根据凹凸性的性质来进行判断，而我们是根据直观的感觉，这一点可以参考百度函数的凹凸性)

2、对不等式(2)两边取期望得：
$\begin{aligned} E[\ exp(\lambda Z)\ ] & \le E[\ \frac{Z-a}{b-a}\ exp(\lambda b)+ \frac{b-Z}{b-a}\ exp(\lambda a)\ ] \\ & =E[\ \frac{Z}{b-a}\ (exp(\lambda b)-exp(\lambda a))\ ]\ +\\&\ \ \ \ E[\ \frac{b}{b-a}\ exp(\lambda a) -\frac{a}{b-a}\ exp(\lambda b)\ ] \end{aligned}$
即得：
$\begin{aligned} E[\ exp(\lambda Z)\ ] & \le E[\ \frac{Z}{b-a}\ (exp(\lambda b)-exp(\lambda a))\ ]\ +\\&\ \ \ \ E[\ \frac{b}{b-a}\ exp(\lambda a) -\frac{a}{b-a}\ exp(\lambda b)\ ]\tag{3} \end{aligned}$
3、又因为 $E (Z) = 0$ ，所以得：
$E[\ exp(\lambda Z)\ ]\le E[\ \frac{b}{b-a}\ exp(\lambda a) -\frac{a}{b-a}\ exp(\lambda b)\ ]\tag{4}$
4、令 $\gamma=-\frac{a}{b-a}$ ，则有 $1-\gamma=\frac{b}{b-a}$ ，即不等式(3)中可以化简为：
$\begin{aligned}E[\ exp(\lambda Z)\ ] & \le E[\ (1-\gamma)\ exp(\lambda a) + \gamma\exp(\lambda b)\ ]\\ &=(1-\gamma)\ exp(\lambda a) + \gamma\exp(\lambda b) \end{aligned}$
即得：
$E[\ exp(\lambda Z)\ ]\le (1-\gamma)\ exp(\lambda a) + \gamma\ exp(\lambda b) \tag{5}$
5、令 $\mu = \lambda\ (b-a)$ ，则有 $\lambda\ a=-\mu \ \gamma$ ，即不等式(4)可以化简为：
$\begin{aligned}E[\ exp(\lambda Z)\ ] & \le (1-\gamma)\ exp(\lambda a) + \gamma \ exp(\lambda a) \ \frac{exp(\lambda b)}{exp(\lambda a) } \\ & = exp(\lambda a) [\ (1-\gamma)\ +\ \gamma\ \frac{exp(\lambda b)}{exp(\lambda a) }\ ] \\ & = exp(-\mu \ \gamma) \ (1-\gamma\ +\ \gamma\ exp(\mu)\ ) \end{aligned}$
即得：
$E[\ exp(\lambda Z)\ ]\le exp(-\mu \ \gamma) \ (1-\gamma\ +\ \gamma\ exp(\mu)\ ) \tag{6}$
6、令 $f(\mu) = log[\ exp(-\mu \ \gamma) \ (1-\gamma\ +\ \gamma\ exp(\mu)\ )\ ]$ ，即对应有： $E[\ exp(\lambda Z)\ ]\le exp[\ f(\mu)\ ]$ ，由 $f(\mu)$ 求导得：
$\begin{cases} f^\prime(\mu)=-\gamma +\frac{\gamma\ exp(\mu)}{1-\gamma\ +\ \gamma\ exp(\mu)} \\ \\ f^{\prime \prime}(\mu) = \frac{\gamma\ (1-\gamma)exp(\mu)}{(1-\gamma\ +\ \gamma\ exp(\mu)\ )^2}\\ \end{cases}$
7、根据泰勒定理（Taylor’s Theorem），存在一个 $\xi \in(0, \mu)$ ，使得： $f(\mu)=f(0)+ \mu\ f^\prime(0)+\frac{\mu^2}{2}\ f^{\prime \prime}(\xi)$ 成立，由上可知， $f(0)=0,f^\prime(0)=0$ ，即 $f(\mu)=\frac{\mu^2}{2}\ f^{\prime \prime}(\xi)$ 令 $t=\frac{\gamma\ exp(\mu)}{1-\gamma\ +\ \gamma\ exp(\mu)}$ ，所以有 $f^{\prime \prime}(\xi)=t\ (1-t)\le\ \frac{1}{4}$ ，即得： $f(\mu)\le \ \frac{\mu^2}{8}=\frac{\lambda^2\ (b-a)^2}{8}\tag{7}$
8、由不等式(6)和(7)以及 $f(\mu)$ 的定义可得：
$E[\ exp(\lambda Z)\ ] \le exp(\frac{\lambda^2\ (b-a)^2}{8})\tag{8}$
综上所述可得： $E[\ exp(\ \lambda(Z-E(Z))\ )\ ]\le exp(\frac{\lambda^2\ (b-a)^2}{8})$

到此霍夫丁引理证毕！

五、Hoeffding’s Inequality（霍夫丁不等式）

定理：设有 $N$ 个随机变量 $Z_i$ ，都有 $Z_i \in [\ a, b\ ]$ ，且其中 $-\infty <a\le b<\infty$ ， $t > 0$ ，既有：
$\frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))\ge t\ )\le exp(-\frac{2Nt^2}{(b-a)^2})$
证明如下：
1、由 $\frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))$ 可得： $\begin{aligned} P( \frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))\ge t\ ) & = \color{red}P(\sum_{i=1}^N(Z_i-E(Z_i)\ge Nt) \\ & \color{red}\le \frac{E[\ e^{s\sum_{i=1}^N(Z_i-E(Z_i)}\ ]}{e^{sNt}} \\ & = \frac{\prod_{i=1}^N E[\ e^{s(Z_i-E(Z_i))}\ ]}{e^{sNt}} \end{aligned}$
注意：红色部分使用的是切诺夫界，其中的 $s > 0$ $!$
即得：
$\frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i)) \le \frac{\prod_{i=1}^N E[\ e^{s(Z_i-E(Z_i))}\ ]}{e^{sNt}}\tag{9}$
2、不等式(9)通过霍夫丁引理可化简得：（这里使用 $e x p (x)$ 代替 $e^x$ ）
$\begin{aligned} P( \frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))\ge t\ ) & \le \frac{\prod_{i=1}^N \color{red}E[\ exp[s(Z_i-E(Z_i))]\ ]}{exp(sNt)} \\ & \le \frac{\prod_{i=1}^N \color{red}exp(\frac{s^2\ (b-a)^2}{8})}{exp(sNt)} \\ & = exp[\ \frac{Ns^2\ (b-a)^2}{8}-sNt\ ] \end{aligned}$ 即得：
$\frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))\ge t\ )\le exp[\ \frac{Ns^2\ (b-a)^2}{8}-sNt\ ]\tag{10}$
3、令 $\frac{Ns^2\ (b-a)^2}{8}-sNt$ ，可以看出它是一个关于 $s$ 的二次函数，且 $s > 0$ ，因为对称轴： $\widehat{s}=\frac{4t}{(b-a)^2}>0$ ，所以函数 $h (s)$ 的最小值在对称轴上，即有：
$min_{s>0}\ exp[\ \frac{Ns^2\ (b-a)^2}{8}-sNt\ ]=\ exp(-\frac{2Nt^2}{(b-a)^2})$
因为要保证不等式(10)恒成立，所以它必须小于函数 $h (s)$ 的最小值，即得：
$\frac{1}{N}\ \sum_{i=1}^N(Z_i-E(Z_i))\ge t\ )\le \ exp(-\frac{2Nt^2}{(b-a)^2}) \tag{11}$

到此霍夫丁不等式证毕！

紧接着对泛化误差上界进行证明

一、首先我们引入霍夫丁不等式定理

设有 $N$ 个独立随机变量 $X_i$ ，都有 $X_i \in [\ a_i, b_i\ ]\ (i=1,2,...,N\ )$ ，且其中 $-\infty <a_i\le b_i<\infty，$ $\overline{X}$ 是 $X_1,X_2,...,X_N$ 的实际均值（经验均值），即 $\overline{X}=\frac{1}{N}\sum_{i=1}^NX_i$ 。
则对任意的 $t > 0$ ，以下不等式成立：
$\begin{cases} P( \ ( \overline{X}-E(\overline{X}))\ge t\ )\le exp[\ -\frac{2N^2t^2 }{\sum_{i=1}^N(b_i-a_i)^2}\ ] \\ \\ P( \ ( E(\overline{X})- \overline{X})\ge t\ )\le exp[ \ -\frac{2N^2t^2 }{\sum_{i=1}^N(b_i-a_i)^2}\ ] \end{cases}$

以上是霍夫丁不等式的变体，根据原不等式进行了调整（移项），这里用来推导泛化误差上界。

二、然后进入到泛化误差的场景中

1、对任意函数 $\in \mathcal{F}$ ， $\widehat{R}(f)$ 是 $N$ 个独立的随机变量 $L (Y, f (X))$ 的样本均值， $R (f)$ 是随机变量 $L (Y, f (X))$ 的期望值。如果损失函数取值于 $[\ 0,1\ ]$ ，即对所有的 $i,[\ a_i,b_i\ ]= [\ 0,1\ ]$ ，那么由以上不等式可知，对任意的 $\varepsilon>0$ ，以下不等式成立：
$P(\ R(f)-\widehat{R}(f)\ge \varepsilon\ )\le\ exp(\ -2N\varepsilon^2\ )\tag{12}$
$\begin{cases} 期望风险：R(f) = E[\ L(Y,f(X))\ ] \\ \\ 经验风险：\widehat{R}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i)) \end{cases}$
2、由于 $\mathcal{F}=\{f_1,f_2,...,f_d\}$ 是一个有限集合，故：
$\begin{aligned} P(\ \exists f \in \mathcal{F}: R(f)-\widehat{R}(f)\ge \varepsilon\ ) &= P(\ \bigcup_{f\in \mathcal{F}} \{R(f)-\widehat{R}(f)\ge \varepsilon\ \}) \\ & \le\ \sum_{f\in \mathcal{F}}P(R(f)-\widehat{R}(f)\ge \varepsilon\ )\\ & \le d\ exp( -2N\varepsilon^2\ ) \end{aligned}$
3、等价的，对于任意的 $\in \mathcal{F}$ ，有：
$P(\ R(f)-\widehat{R}(f)< \varepsilon\ )\ge\ 1- d\ exp(\ -2N\varepsilon^2\ )\tag{13}$
4、令 $\delta = d\ exp(\ -2N\varepsilon^2\ )$ ，即有 $\varepsilon = \sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})}$ ，则：
$P(\ R(f)-\widehat{R}(f)< \varepsilon\ )\ge\ 1- \delta \tag{14}$
5、即根据不等式(14)可以得知，至少以 $1-\delta$ 的概率可以确定： $R(f)-\widehat{R}(f)< \varepsilon \tag{15}$
6、但是我们关心的是泛化能力最差的那一个函数，即泛化误差最小的函数，这样获取的泛化误差上界才更具有普遍性，令经验风险最小化函数为： $f_N = arg\ min_{f\in \mathcal{F}}\widehat{R}(f)$ ，即得：
$R(f_N)=E[\ L(Y,f_N(X))\ ] \tag{16}$

综上所述，泛化误差上界为：
$R(f_N)-\widehat{R}(f_N)< \varepsilon(\ d,N,\delta\ )$

到此泛化误差上界证毕！

霍夫丁不等式推导的论文链接：03_hoeffding.pdf

如有错误，还请指正！

不乏希望

关注

30
点赞
踩
82

收藏

觉得还不错? 一键收藏
29
评论
泛化误差上界的证明【内含霍夫丁不等式（Hoeffding‘s Inequality）的证明】

本篇博客旨在补充李航老师在《统计学习方法》第一章中关于Hoeffding’s Inequality的证明，明白了它的由来才能对泛化误差上界有更深刻的认识。先导内容1、泛化能力（generalization ability）：学习方法学习到的模型对未知数据的预测能力。2、泛化误差（generalization error）：用学习到的模型对未知数据进行预测的误差，定义如下：（假设学...
复制链接

扫一扫