机器学习基石——VC维中的A Pictorial Proof

最新推荐文章于 2022-06-29 16:10:13 发布

周二下午多云转小雨

最新推荐文章于 2022-06-29 16:10:13 发布

阅读量341

点赞数 1

分类专栏：算法人工智能文章标签： A Pictorial Proof VC维机器学习基石

本文链接：https://blog.csdn.net/qq_29508953/article/details/86776670

版权

人工智能同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

算法

8 篇文章 0 订阅

订阅专栏

这一节主要描述了本人对VC维中

该式

推导为

推导过程的个人理解，若有理解不当之处，望各位指正！

step1描述：

step1理解：

$E_{in}\left ( h \right )$ 由两个因素决定，一个是假设h(h属于假设空间H)，还有一个是N个input的样本集(这N个样本集来自无穷的样本空间)。当h和input的样本集确定时， $E_{in}\left ( h \right )$ 的值也就确定了。

$E_{out}\left ( h \right )$ 只由假设h决定，因为 $E_{out}\left ( h \right )$ 是指假设h作用在样本空间中的每一个样本所产生的期望误差。

当假设h确定时，我们在样本空间中随机取N个input样本，每取一次就会产生一个 $E_{in}\left ( h \right )$ 值，重复很多次，利用统计学方法，可以得到 $E_{in}\left ( h \right )$ 的概率密度分布图如下图所示。而且由 $E_{out}\left ( h \right )$ 的定义可知这个概率密度分布图的峰值处对应的值差不多就是 $E_{out}\left ( h \right )$ 的值。（根据https://blog.csdn.net/qq_29508953/article/details/86661634中 $E_{in}\left ( h \right )$ ， $E_{out}\left ( h \right )$ 的定义， $E$ 值介于0-1之间）。

图1

当假设h确定时的概率值可以用下图蓝色填充部分的面积值表示：

图2

在step1中，由于 $E_{out}\left ( h \right )$ 作用的是无穷的样本空间，对于假设空间H来说，当假设h发生一点点变化时， $E_{out}\left ( h \right )$ 的值就改变了，所以 $E_{out}\left ( h \right )$ 有无限种。那么就可以推出以下公式：

$P( \exists h \in H s.t. \left | E_{in}\left ( h\right )-E_{out}\left ( h \right ) \right |> \varepsilon ) \\ & = P\left ( \left | E_{in}\left ( h_1 \right )-E_{out}\left ( h_1 \right ) \right | > \varepsilon \cup \left | E_{in}\left ( h_2 \right )-E_{out}\left ( h_2 \right ) \right | > \varepsilon \cup \cdots \cup \left | E_{in}\left ( h_{m} \right )-E_{out}\left ( h_{m} \right ) \right | > \varepsilon \right )$

m趋向于无穷。

这样的话公式就推不下去了。。。

为了解决这个问题，我们在样本空间中任意取N个样本作为测试集，得到 $E^{'}_{in}\left ( h \right )$ ，代替 $E_{out}\left ( h \right )$ 。由于 $E_{in}\left ( h \right )$ 也是通过该方法得到的，所以 $E^{'}_{in}\left ( h \right )$ 和 $E_{in}\left ( h \right )$ 在相同的假设h作用下，是独立同分布的。

step1证明：

首先step1的不等式就等价于存在一个h属于H满足：

$\frac{1}{2} P\left ( \left | E_{in}\left (h \right )-E_{out} \left ( h \right )\right | > \epsilon \right )- P\left ( \left | E_{in}\left ( h \right ) -E{}'_{in}\left ( h \right )\right | > \frac{\epsilon }{2}\right )\geq 0$

令 $&E_{in}\left ( h \right )= x_1, E{}'_{in}\left ( h \right )= x_2, E_{out}\left ( h \right )=E\left ( x_1 \right )=E\left ( x_2 \right )$ 。 $E^{'}_{in}\left ( h \right )$ 和 $E_{in}\left ( h \right )$ 在相同的假设h作用下，是独立同分布的，所以 $x_1, x_2$ 也独立同分布，所以两者的联合分布公式： $f_{x_1 x_2}\left ( x_1,x_2 \right )=f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )$ 。 $\begin{align*} &\frac{1}{2} P\left ( \left | E_{in}\left (h \right )-E_{out} \left ( h \right )\right | > \epsilon \right ) \\ & = \frac{1}{2}- \frac{1}{2}P\left ( \left | E_{in}\left (h \right )-E_{out} \left ( h \right )\right | \leq \epsilon \right ) \\ &= \frac{1}{2}- \frac{1}{2}P\left ( \left | x_1-E\left ( x_1 \right )\right | \leq \epsilon \right )\\&= \frac{1}{2}- \frac{1}{2}P\left ( \left | x_1-E\left ( x_2 \right )\right | \leq \epsilon \right )\\ &= \frac{1}{2}- \frac{1}{2}\iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2 \ \left ( 1 \right ) \end{align*}$

$\begin{align*} &P\left ( \left | E_{in}\left ( h \right ) -E{}'_{in}\left ( h \right )\right | > \frac{\epsilon }{2}\right )\\ &=1-\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2\ \left ( 2 \right )\end{align*}$

$\begin{align*} &\frac{1}{2} P\left ( \left | E_{in}\left (h \right )-E_{out} \left ( h \right )\right | > \epsilon \right )- P\left ( \left | E_{in}\left ( h \right ) -E{}'_{in}\left ( h \right )\right | > \frac{\epsilon }{2}\right )\\ &=\frac{1}{2}+\frac{1}{2} \iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2-\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2 \ \left ( 3 \right )\end{align*}$

对于公式3中的

$-\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2$

由图1可得 $f_{x_1}\left ( x_1 \right )\leq f_{x_1}\left ( E\left ( x_1 \right ) \right )$ ， $f_{x_2}\left ( x_2 \right )\leq f_{x_2}\left ( E\left ( x_2 \right ) \right )$ ；

由于 $x_1, x_2$ 独立同分布，所以 $f_{x_1}\left ( E\left ( x_1 \right ) \right )=f_{x_2}\left ( E\left ( x_2 \right ) \right )$ ；

并且 $f_{x_1}\left ( E\left ( x_1 \right ) \right )=f_{x_2}\left ( E\left ( x_2 \right ) \right )\geq 1$ ，因为如果 $f_{x_1}\left ( E\left ( x_1 \right ) \right ),f_{x_2}\left ( E\left ( x_2 \right ) \right )$ 小于1，则图1围成的总面积会小于1。

根据https://blog.csdn.net/qq_29508953/article/details/86661634中 $E_{in}\left ( h \right )$ ， $E_{out}\left ( h \right )$ 的定义， $E$ 值介于0-1之间，所以 $0\leq x_1\leq 1 \ and \ 0\leq x_2\leq 1$ 。 $\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}$ 围成的面积为下图蓝色部分面积

图3

所以

$\begin{align*} &-\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2 \\ &\geq -\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f^2_{x_1}\left ( E\left ( x_1\right ) \right )dx_1dx_2\\ &=-f^2_{x_1}\left ( E\left ( x_1\right ) \right )\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}}1\ dx_1dx_2 \\ &=-f^2_{x_1}\left ( E\left ( x_1\right ) \right)\left ( 1-2*\frac{\left ( 1-\frac{\epsilon }{2} \right )^2}{2} \right ) \\ &=-f^2_{x_1}\left ( E\left ( x_1\right ) \right)\left ( \epsilon -\frac{\epsilon ^2}{4} \right ) \\ &\geq -\epsilon +\frac{\epsilon ^2}{4} \ \left ( 4 \right )\end{align*}$

然后再看公式3中的

$\iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2$

$\iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2\geq 0$

以及

$\iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2=\int_{0}^{1}f_{x_2}\left ( x_2 \right )dx_2\int_{E\left ( x_2 \right )-\epsilon}^{E\left ( x_2 \right )+\epsilon}f_{x_1}\left ( x_1 \right )dx_1$

所以 $0\leq E\left ( x_2 \right )+\epsilon \leq 1$ 以及 $0\leq E\left ( x_2 \right )-\epsilon \leq 1$

所以 $\epsilon \leq E\left ( x_2 \right )\leq 1-\epsilon$

所以 $\epsilon \leq 1-\epsilon$

所以 $\epsilon \leq 0.5$

综上

step2与step3描述：

step2与step3证明：

我们在样本空间中随机取N个input样本设为D，D保持不变，令h在假设空间H上改变时， $E_{in}\left ( h \right )$ 最多有 $m_H\left ( N \right )$ 种可能；

同样我们在样本空间中随机取N个input样本设为D’，D’保持不变，令h在假设空间H上改变时， $E^{'}_{in}\left ( h \right )$ 最多有 $m_H\left ( N \right )$ 种可能；

因为D和D'可能重叠，所以当D与D'不变，h在假设空间H上改变时， $E_{in}\left ( h \right )-E{}'_{in}\left ( h \right )$ 最多有 $m_H\left ( 2N \right )$ 种可能。

$\begin{align*} & 2P(\exists h \in H s.t. \left | E_{in}\left ( h \right )-E{}'_{in}\left ( h \right ) \right |> \frac{\epsilon }{2} ) \\ & \leq 2P\left ( \left | E_{in}\left ( h_1 \right )-E{}'_{in}\left ( h_1 \right ) \right | > \frac{\epsilon }{2} \cup \left | E_{in}\left ( h_2 \right )-E{}'_{in}\left ( h_2 \right ) \right | > \frac{\epsilon }{2} \cup \cdots \cup \left | E_{in}\left ( h_{m_H\left ( 2N \right )} \right )-E{}'_{in}\left ( h_{m_H\left ( 2N \right )} \right ) \right | > \frac{\epsilon }{2} \right )\\ &\leq 2P(\left | E_{in}\left ( h_1 \right )-E{}'_{in}\left ( h_1 \right ) \right |> \frac{\epsilon }{2} ) + 2P(\left | E_{in}\left ( h_2 \right )-E{}'_{in}\left ( h_2 \right ) \right |> \frac{\epsilon }{2}) + \cdots + 2P(\left | E_{in}\left ( h_{m_H\left ( 2N \right )} \right )-E{}'_{in}\left ( h_{m_H\left (2N \right )} \right )\right | > \frac{\epsilon }{2}) \left ( 5 \right )\end{align*}$

$\begin{align*} &2P(\left | E_{in}\left ( h_1 \right )-E{}'_{in}\left ( h_1 \right ) \right |> \frac{\epsilon }{2} ) + 2P(\left | E_{in}\left ( h_2 \right )-E{}'_{in}\left ( h_2 \right ) \right |> \frac{\epsilon }{2}) + \cdots + 2P(\left | E_{in}\left ( h_{m_H\left ( 2N \right )} \right )-E{}'_{in}\left ( h_{m_H\left (2N \right )} \right )\right | > \frac{\epsilon }{2})\\ &= 2P(\left | \frac{E_{in}\left ( h_1 \right )}{2}-\frac{E{}'_{in}\left ( h_1 \right ) }{2}\right |> \frac{\epsilon }{4} ) + 2P(\left | \frac{E_{in}\left ( h_2 \right )}{2}-\frac{E{}'_{in}\left ( h_2 \right ) }{2}\right |> \frac{\epsilon }{4}) + \cdots + 2P(\left |\frac{ E_{in}\left ( h_{m_H\left ( 2N \right )} \right )}{2}-\frac{E{}'_{in}\left ( h_{m_H\left (2N \right )} \right )}{2}\right | > \frac{\epsilon }{4})\\ &\leq 2m_H\left (2N \right ).2exp\left ( -2\left ( \frac{\epsilon }{4} \right ) ^2N\right ) \ \left ( 6 \right )\end{align*}$

公式(6)中用的是一种无放回抽样的霍夫丁不等式，与常规的霍夫丁不等式边界一致，这种情形的证明可以看Hoeffding在1963年发表的论文。如果需要一个在无放回抽样的例子中更好的边界，可以查看Serfling在1974年发表的论文。

周二下午多云转小雨

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
机器学习基石——VC维中的A Pictorial Proof

这一节主要描述了本人对VC维中该式推导为推导过程的个人理解，若有理解不当之处，望各位指正！step1描述：step1理解：由两个因素决定，一个是假设h(h属于假设空间H)，还有一个是N个input的样本集(这N个样本集来自无穷的样本空间)。当h和input的样本集确定时，的值也就确定了。只由假设h决定，因为是指假设h作用在样本空间中的每一个样本所产生的期望误差。...
复制链接

扫一扫