机器学习基石——VC维中的A Pictorial Proof

这一节主要描述了本人对VC维中

该式

推导为

推导过程的个人理解,若有理解不当之处,望各位指正!


step1描述:

step1理解:

E_{in}\left ( h \right )由两个因素决定,一个是假设h(h属于假设空间H),还有一个是N个input的样本集(这N个样本集来自无穷的样本空间)。当h和input的样本集确定时,E_{in}\left ( h \right )的值也就确定了。

E_{out}\left ( h \right )只由假设h决定,因为E_{out}\left ( h \right )是指假设h作用在样本空间中的每一个样本所产生的期望误差。

当假设h确定时,我们在样本空间中随机取N个input样本,每取一次就会产生一个E_{in}\left ( h \right )值,重复很多次,利用统计学方法,可以得到E_{in}\left ( h \right )的概率密度分布图如下图所示。而且由E_{out}\left ( h \right )的定义可知这个概率密度分布图的峰值处对应的值差不多就是E_{out}\left ( h \right )的值。(根据https://blog.csdn.net/qq_29508953/article/details/86661634E_{in}\left ( h \right )E_{out}\left ( h \right )的定义,E值介于0-1之间)。

图1

当假设h确定时的概率值可以用下图蓝色填充部分的面积值表示:

图2

在step1中,由于E_{out}\left ( h \right )作用的是无穷的样本空间,对于假设空间H来说,当假设h发生一点点变化时,E_{out}\left ( h \right )的值就改变了,所以E_{out}\left ( h \right )有无限种。那么就可以推出以下公式:

P( \exists h \in H s.t. \left | E_{in}\left ( h\right )-E_{out}\left ( h \right ) \right |> \varepsilon ) \\ & = P\left ( \left | E_{in}\left ( h_1 \right )-E_{out}\left ( h_1 \right ) \right | > \varepsilon \cup \left | E_{in}\left ( h_2 \right )-E_{out}\left ( h_2 \right ) \right | > \varepsilon \cup \cdots \cup \left | E_{in}\left ( h_{m} \right )-E_{out}\left ( h_{m} \right ) \right | > \varepsilon \right )

m趋向于无穷。

这样的话公式就推不下去了。。。

为了解决这个问题,我们在样本空间中任意取N个样本作为测试集,得到E^{'}_{in}\left ( h \right ),代替E_{out}\left ( h \right )。由于E_{in}\left ( h \right )也是通过该方法得到的,所以E^{'}_{in}\left ( h \right )E_{in}\left ( h \right )在相同的假设h作用下,是独立同分布的。

step1证明:

首先step1的不等式就等价于存在一个h属于H满足:

\frac{1}{2} P\left ( \left | E_{in}\left (h \right )-E_{out} \left ( h \right )\right | > \epsilon \right )- P\left ( \left | E_{in}\left ( h \right ) -E{}'_{in}\left ( h \right )\right | > \frac{\epsilon }{2}\right )\geq 0

&E_{in}\left ( h \right )= x_1, E{}'_{in}\left ( h \right )= x_2, E_{out}\left ( h \right )=E\left ( x_1 \right )=E\left ( x_2 \right )E^{'}_{in}\left ( h \right )E_{in}\left ( h \right )在相同的假设h作用下,是独立同分布的,所以x_1, x_2也独立同分布,所以两者的联合分布公式:f_{x_1 x_2}\left ( x_1,x_2 \right )=f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )\begin{align*} &\frac{1}{2} P\left ( \left | E_{in}\left (h \right )-E_{out} \left ( h \right )\right | > \epsilon \right ) \\ & = \frac{1}{2}- \frac{1}{2}P\left ( \left | E_{in}\left (h \right )-E_{out} \left ( h \right )\right | \leq \epsilon \right ) \\ &= \frac{1}{2}- \frac{1}{2}P\left ( \left | x_1-E\left ( x_1 \right )\right | \leq \epsilon \right )\\&= \frac{1}{2}- \frac{1}{2}P\left ( \left | x_1-E\left ( x_2 \right )\right | \leq \epsilon \right )\\ &= \frac{1}{2}- \frac{1}{2}\iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2 \ \left ( 1 \right ) \end{align*}​​

​​​​​​​\begin{align*} &P\left ( \left | E_{in}\left ( h \right ) -E{}'_{in}\left ( h \right )\right | > \frac{\epsilon }{2}\right )\\ &=1-\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2\ \left ( 2 \right )\end{align*}

\begin{align*} &\frac{1}{2} P\left ( \left | E_{in}\left (h \right )-E_{out} \left ( h \right )\right | > \epsilon \right )- P\left ( \left | E_{in}\left ( h \right ) -E{}'_{in}\left ( h \right )\right | > \frac{\epsilon }{2}\right )\\ &=\frac{1}{2}+\frac{1}{2} \iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2-\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2 \ \left ( 3 \right )\end{align*}

对于公式3中的

-\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2

由图1可得f_{x_1}\left ( x_1 \right )\leq f_{x_1}\left ( E\left ( x_1 \right ) \right )f_{x_2}\left ( x_2 \right )\leq f_{x_2}\left ( E\left ( x_2 \right ) \right )

由于x_1, x_2独立同分布,所以f_{x_1}\left ( E\left ( x_1 \right ) \right )=f_{x_2}\left ( E\left ( x_2 \right ) \right )

并且f_{x_1}\left ( E\left ( x_1 \right ) \right )=f_{x_2}\left ( E\left ( x_2 \right ) \right )\geq 1,因为如果f_{x_1}\left ( E\left ( x_1 \right ) \right ),f_{x_2}\left ( E\left ( x_2 \right ) \right )小于1,则图1围成的总面积会小于1。

根据https://blog.csdn.net/qq_29508953/article/details/86661634E_{in}\left ( h \right )E_{out}\left ( h \right )的定义,E值介于0-1之间,所以0\leq x_1\leq 1 \ and \ 0\leq x_2\leq 1\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}围成的面积为下图蓝色部分面积

图3

所以

\begin{align*} &-\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2 \\ &\geq -\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f^2_{x_1}\left ( E\left ( x_1\right ) \right )dx_1dx_2\\ &=-f^2_{x_1}\left ( E\left ( x_1\right ) \right )\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}}1\ dx_1dx_2 \\ &=-f^2_{x_1}\left ( E\left ( x_1\right ) \right)\left ( 1-2*\frac{\left ( 1-\frac{\epsilon }{2} \right )^2}{2} \right ) \\ &=-f^2_{x_1}\left ( E\left ( x_1\right ) \right)\left ( \epsilon -\frac{\epsilon ^2}{4} \right ) \\ &\geq -\epsilon +\frac{\epsilon ^2}{4} \ \left ( 4 \right )\end{align*}

 

然后再看公式3中的

\iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2

 

\iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2\geq 0

以及

\iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2=\int_{0}^{1}f_{x_2}\left ( x_2 \right )dx_2\int_{E\left ( x_2 \right )-\epsilon}^{E\left ( x_2 \right )+\epsilon}f_{x_1}\left ( x_1 \right )dx_1

所以0\leq E\left ( x_2 \right )+\epsilon \leq 1以及0\leq E\left ( x_2 \right )-\epsilon \leq 1

所以\epsilon \leq E\left ( x_2 \right )\leq 1-\epsilon

所以\epsilon \leq 1-\epsilon

所以\epsilon \leq 0.5

综上

\begin{align*} &\frac{1}{2} P\left ( \left | E_{in}\left (h \right )-E_{out} \left ( h \right )\right | > \epsilon \right )- P\left ( \left | E_{in}\left ( h \right ) -E{}'_{in}\left ( h \right )\right | > \frac{\epsilon }{2}\right )\\ &=\frac{1}{2}+\frac{1}{2} \iint\limits_{\left | x_1-E\left ( x_2\right ) \right| \leq\epsilon }f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2-\iint\limits_{\left | x_1-x_2 \right |\leq \frac{\epsilon }{2}} f_{x_1}\left ( x_1 \right )f_{x_2}\left ( x_2 \right )dx_1dx_2\\ &\geq \frac{1}{2} +\frac{\epsilon ^2}{4}-\epsilon \\ &\geq 0\end{align*}


step2与step3描述:

step2与step3证明:

我们在样本空间中随机取N个input样本设为D,D保持不变,令h在假设空间H上改变时,E_{in}\left ( h \right )最多有m_H\left ( N \right )种可能;

同样我们在样本空间中随机取N个input样本设为D’,D’保持不变,令h在假设空间H上改变时,E^{'}_{in}\left ( h \right )最多有m_H\left ( N \right )种可能;

因为D和D'可能重叠,所以当D与D'不变,h在假设空间H上改变时,E_{in}\left ( h \right )-E{}'_{in}\left ( h \right )最多有m_H\left ( 2N \right )种可能。

\begin{align*} & 2P(\exists h \in H s.t. \left | E_{in}\left ( h \right )-E{}'_{in}\left ( h \right ) \right |> \frac{\epsilon }{2} ) \\ & \leq 2P\left ( \left | E_{in}\left ( h_1 \right )-E{}'_{in}\left ( h_1 \right ) \right | > \frac{\epsilon }{2} \cup \left | E_{in}\left ( h_2 \right )-E{}'_{in}\left ( h_2 \right ) \right | > \frac{\epsilon }{2} \cup \cdots \cup \left | E_{in}\left ( h_{m_H\left ( 2N \right )} \right )-E{}'_{in}\left ( h_{m_H\left ( 2N \right )} \right ) \right | > \frac{\epsilon }{2} \right )\\ &\leq 2P(\left | E_{in}\left ( h_1 \right )-E{}'_{in}\left ( h_1 \right ) \right |> \frac{\epsilon }{2} ) + 2P(\left | E_{in}\left ( h_2 \right )-E{}'_{in}\left ( h_2 \right ) \right |> \frac{\epsilon }{2}) + \cdots + 2P(\left | E_{in}\left ( h_{m_H\left ( 2N \right )} \right )-E{}'_{in}\left ( h_{m_H\left (2N \right )} \right )\right | > \frac{\epsilon }{2}) \left ( 5 \right )\end{align*}

\begin{align*} &2P(\left | E_{in}\left ( h_1 \right )-E{}'_{in}\left ( h_1 \right ) \right |> \frac{\epsilon }{2} ) + 2P(\left | E_{in}\left ( h_2 \right )-E{}'_{in}\left ( h_2 \right ) \right |> \frac{\epsilon }{2}) + \cdots + 2P(\left | E_{in}\left ( h_{m_H\left ( 2N \right )} \right )-E{}'_{in}\left ( h_{m_H\left (2N \right )} \right )\right | > \frac{\epsilon }{2})\\ &= 2P(\left | \frac{E_{in}\left ( h_1 \right )}{2}-\frac{E{}'_{in}\left ( h_1 \right ) }{2}\right |> \frac{\epsilon }{4} ) + 2P(\left | \frac{E_{in}\left ( h_2 \right )}{2}-\frac{E{}'_{in}\left ( h_2 \right ) }{2}\right |> \frac{\epsilon }{4}) + \cdots + 2P(\left |\frac{ E_{in}\left ( h_{m_H\left ( 2N \right )} \right )}{2}-\frac{E{}'_{in}\left ( h_{m_H\left (2N \right )} \right )}{2}\right | > \frac{\epsilon }{4})\\ &\leq 2m_H\left (2N \right ).2exp\left ( -2\left ( \frac{\epsilon }{4} \right ) ^2N\right ) \ \left ( 6 \right )\end{align*}

公式(6)中用的是一种无放回抽样的霍夫丁不等式,与常规的霍夫丁不等式边界一致,这种情形的证明可以看Hoeffding在1963年发表的论文。如果需要一个在无放回抽样的例子中更好的边界,可以查看Serfling在1974年发表的论文。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值