Foundations of Machine Learning 2nd——第三章（一）拉德马赫复杂度

最新推荐文章于 2023-03-18 11:37:53 发布

九二_

最新推荐文章于 2023-03-18 11:37:53 发布

阅读量1.8k

点赞数 5

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43631376/article/details/108919066

版权

Foundations of Machine Learning 2nd——第三章（一）拉德马赫复杂度和VC维度

回顾第二章
拉德马赫复杂度
定义1 经验拉德马赫复杂度（Empirical Rademacher complexity）
定义2 拉德马赫复杂度
定理1
引理1
定理2 拉德马赫复杂度边界——二分类
总结

回顾第二章

我们在设计算法的时候肯定要考虑他的可行性以及需要多少训练样本才能返回一个比较准确的从输入到输出的映射。第二章就介绍了一个这样的框架——PAC框架，它能够帮助我们确定模型的可行性和训练样本的大小，以及generalization error的边界。同时第二章还举了有限映射集( $H$ )且consistent、有限映射集且inconsistent以及agnostic PAC-learning的情况。

不过并没有介绍无限映射集的情况，所以这一章主要介绍的是对于无限假设集的问题，找到他们一般性的边界（generalization error）。

那么如何处理这种情况呢？很自然地就可以想到是否可以将无限映射集的情况简化到有限映射集的情况，这样就可以使用前一章的处理方法。有许多实现这种简化的技巧，他们都依赖于关于映射族的一些复杂度概念，我们第一个要用到的复杂度概念是——拉德马赫复杂度（Rademacher complexity）。他可以帮助我们导出有效边界。

注意：这一节的许多结论对于任意损失函数都是通用的

拉德马赫复杂度

令 $H$ 表示一个映射（假设）集， $L:Y\times Y\rightarrow R$ 表示任意一个损失函数， $G$ 表示和 $H$ 有关的损失函数簇，从 $Z=X\times Y$ 映射到 $R$ :
$G=\{G:(x,y)\rightarrow L(h(x),y):h\in H\}$
后文直接用来表示从输入空间 $Z$ 到实数 $R$ 的映射集

拉德马赫复杂度的作用是：通过计算映射集和随机噪声的匹配度来捕捉一个函数族的丰富度。

定义1 经验拉德马赫复杂度（Empirical Rademacher complexity）

$G$ 表示从 $Z$ 到 $[a, b]$ 的映射函数集，样本集 $S=\{z_1,z_2,..,z_m\}$ 包含 $m$ 个样本。 $G$ 关于 $S$ 的经验拉德马赫复杂度如下：
$\hat{R_S}(G) = \mathop{E}\limits_\sigma[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^{m}\sigma_1g(z_i)]$
${ } sup\{\}$ 表示上确界。
$\sigma=\{\sigma_1,\sigma_2,..,\sigma_m\}$ , $\sigma_i$ 是独立同分布的随机变量，取值为 ${1,-1\}$ 。

(注意：这里我们假设关于映射集 $G$ 的上确界是可以找到的，这个假设在后面一直会沿用，虽然在实际中可能无法计算，但是这个假设对于公式推导是有效且有意义的)
上式也可写成：
$\hat{R_S}(G) = \mathop{E}\limits_\sigma[\sup\limits_{g\in G}\frac{\sigma· g_S}{m}]$
$g_S$ 表示函数 $g$ 作用在样本集 $S$ 上计算得到的向量。

这里 $\sigma·g_S$ 这一内积表示 $g_S$ 和 $\sigma$ 的相关性。 $sup_{g\in G}\frac{\sigma·g_S}{m}$ 表示 $G$ 这个函数集合 $\sigma$ 的最好匹配性。于是经验拉德马赫复杂度就可以平均的表示函数集 $G$ 和随机变量 $\sigma$ 在样本集 $S$ 上的匹配程度。这表示了函数集 $G$ 的丰富度：越丰富或者越复杂的函数集 $G$ 可以产生更多的向量 $g_S$ ，因此和随机变量的相关性更好。

定义2 拉德马赫复杂度

令 $D$ 表示样本服从的分布。对于任意的整数 $m\geq1$ ， $G$ 的拉德马赫复杂度就是经验拉德马赫复杂度在所有的大小为 $m$ 的样本集上的期望：
$R_m(G)=\mathop{E}\limits_{S\sim D^m}[\hat{R_S}(G)]$

NOW！我们知道了拉德马赫复杂度的定义，上文说无限映射集的情况下，他的约束边界是根据拉德马赫复杂度来引出的！接下来让我们康康这个小东西怎么引出来约束边界的~

定理1

令 $G$ 表示一个从 $Z$ 映射到 $[0, 1]$ 。对于任意的 $\delta>0$ ，至少有 $1-\delta$ 的概率对于一个大小为 $m$ 的独立同分布的样本集 $S$ 来说，下式对所有的 $g\in G$ 都成立：
$\mathop{E}[g(z)]\leq \frac{1}{m}\sum_{i=1}^{m}g(z_i)+2R_m(G)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}} \\ \mathop{E}[g(z)]\leq \frac{1}{m}\sum_{i=1}^{m}g(z_i)+2\hat{R_S}(G)+3\sqrt{\frac{\log\frac{2}{\delta}}{2m}}$

注意：关于第一个不等式根号里面，书上写的是 $1/\delta$ ，但是我个人感觉应该是 $2/\delta$ ，推导在后面，如果我推导的是错的欢迎指正！

这个定理给出了映射的损失值的期望上界。

证明：
对于任意样本集 $S$ 和任意 $g\in G$ ，定义 $\hat{E}_S[g] = \frac{1}{m}\sum_{i=1}^mg(z_i)$ 。为了证明上式，我们引用了McDiarmid不等式，并且构造了一个函数 $\Phi$ （关于任意 $S$ ）（这个 $\Phi$ 的作用就是能够在证明过程中应用McDiarmid不等式）：
$\Phi(S) = \sup\limits_{g\in G}(E[g]-\hat{E}_S[g])$
定义 $S^{'}$ 和 $S$ 是两个样本集，他们只有一个样本点是不同的，假设是 $S$ 里的 $z_m$ 和 $S^{'}$ 里的 $z_m^{'}$ 。
由于上界之差小于等于差的上界，可以导出：
$\Phi(S^{'})-\Phi(S)\leq\sup\limits_{g\in G}(\hat{E}_S(g)-\hat{E}_{S^{'}}(g))=\sup\limits_{g\in G}\frac{g(z_m)-g(z_m^{'})}{m}\leq\frac{1}{m}$
（因为 $g$ 是从 $Z$ 映射到 ${0,1\}$ 的函数，所以 $g(z_m)-g(z_m^{'})\leq 1$ ）
也就是说， $\Phi(S^{'})-\Phi(S)\leq\frac{1}{m}\rightarrow|\Phi(S^{'})-\Phi(S)|\leq\frac{1}{m}$
接下来利用McDiarmid不等式可以得到，对于任意的 $\delta>0$ ，有 $1-\delta/2$ 的把握使得下式成立：
$\Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}$

这一步的证明如下：
McDiarmid不等式介绍如下：
设函数 $f:X^n\rightarrow R$ 满足对所有的 $i$ 都可以找到一个常数 $c_i<+\infty$ 使得：
$|f(x_1,...x_m)-f(x1,..x_i^{'},..x_m)|\leq c_i$
则称 $f$ 是差有界的（也就是说除一个数据点外其他数据点不变的话，预测结果差距不会太大，这一性质在ML中十分重要，是ML中的某种稳定性质）
McDiarmid不等式给出了一个概率界，如果样本独立，且 $f$ 是差有界的，那么：
$P(|f(x_1,...,x_m)-E[f(x_1,...,x_m)]|>t)\leq 2\exp\{-\frac{2t^2}{\sum_{i=1}^{m}c_i^2}\}$
再回到我们上面说的 $\Phi(S^{'})-\Phi(S)\leq\frac{1}{m}\rightarrow|\Phi(S^{'})-\Phi(S)|\leq\frac{1}{m}$ ，也就是说 $\Phi(S)$ 是差有界的。那么
$P(\Phi(S)-\mathop{E}\limits_S[\Phi(S)]>\epsilon)\leq\exp\{-\frac{2\epsilon^2}{\sum_{i=1}^m\frac{1}{m^2}}\}=\exp\{-2\epsilon^2m\}=\delta/2\\ ==>\epsilon= \sqrt{\frac{\log\frac{2}{\delta}}{2m}}$
所以有 $1-\delta/2$ 的把握 $\Phi(S)-\mathop{E}\limits_S[\Phi(S)]\leq\epsilon\rightarrow \\ \Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}$

上面从设 $\Phi(S)$ 开始都是为了得到最初的定理（ $E [g (z)]$ 的边界）所做的trick。下面一步还是trick…（只是提醒一下，省的看到这儿忘记了前面是什么）：
$\mathop{E}\limits_S[\Phi(S)]=\mathop{E}\limits_S[\sup\limits_{g\in G}(E[g]-\hat{E}_S(g))]\\ =\mathop{E}\limits_S[\mathop{E}_{S^{'}}[\hat{E}_{S^{'}}(g)-\hat{E}_S(g)]]\quad 因为E[g] = \mathop{E}\limits_{S^{'}}[\hat{E}_{S^{'}}(g)]\\ \leq\mathop{E}\limits_{S,S^{'}}[\sup\limits_{g\in G}(\hat{E}_{S^{'}}(g)-\hat{E}_S(g))]\quad 期望的上界小于上界的期望\\ =\mathop{E}\limits_{S,S^{'}}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m(g(z_i^{'})-g(z_i))]\\ =\mathop{E}\limits_{S,S^{'},\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_i(g(z_i^{'})-g(z_i))]\\ \leq\mathop{E}\limits_{S^{'},\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i^{'})]+\mathop{E}\limits_{S,\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m-\sigma_ig(z_i)]\quad 和的上界小于等于上界的和\\ =2\mathop{E}\limits_{S,\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum_{i=1}^m\sigma_ig(z_i)]=2R_m(G)$

解释：引入 $\sigma$ 那一步，因为 $\sigma$ 是均匀分布的独立随机变量，取值在 ${1,-1\}$ 里，同时 $S,S^{'}$ 也是任意一个大小为 $m$ 的样本集，所以引入 $\delta$ 对结果不产生影响，且 $-\delta$ 和 $\delta$ 作用一样。

也就是说，刚刚求出的不等式 $\Phi(S)\leq\mathop{E}\limits_S[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\leq2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}$
又因为 $\Phi(S) = \sup\limits_{g\in G}(E(g)-\hat{E}_S(g))$
$E(g)-\hat{E}_S(g)\leq2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\\ ==>E(g)\leq\hat{E}_S(g)+2R_m(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}$
也就是一开始我们说的关于损失函数 $g$ 的期望上界。（只不过定义里把 $1-2/\delta$ 的把握扩展到了 $1-\delta$ ）

第一个等式证出来了，那么第二个呢？类似，也利用McDiarmid不等式
推导定理的第二个不等式需要用到:
$R_m(G)\leq\hat{R}_S(G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}$
证明:
$\hat{R}_S-\hat{R}_{S^{'}}=\mathop{E}\limits_{\sigma}[\sup\limits_g\frac{\sigma·g_S}{m}]-\mathop{E}\limits_{\sigma}[\sup\limits_g\frac{\sigma·g_{S^{'}}}{m}]\\ =\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma·g_S}{m}-\sup\limits_g\frac{\sigma·g_{S^{'}}}{m})\\ \leq\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma·(g_S-g_{S^{'}})}{m})\\ =\mathop{E}\limits_\sigma(\sup\limits_g\frac{\sigma_i·g(z_i-z_i^{'})}{m})\leq\frac{1}{m}$
得到了这一个不等式后，利用McDarmid不等式：
$P(R_m(G)-\hat{R}_S(G)>\epsilon)=P(\mathop{E}\limits_{S^{'}}[\hat{R}_{S^{'}}(G)]-\hat{R}_S(G)>\epsilon)\leq\exp\{-2\epsilon^2m\}=\delta/2$
可以推出：
$\epsilon=\sqrt{\frac{\log\frac{2}{\delta}}{2m}}$
不等式得证。
把 $R_m(G)$ 带入定理的第一个不等式就得到第二个。

引理1

令 $H$ 是一个映射族，映射到 ${-1,1\}$ ,令 $G$ 是关于 $H$ 的0-1损失函数族： $G=\{(x,y)\rightarrow1_{h(x)\neq y}:h\in H\}$ 。对于任意的样本集 $S=\{(x_1,y_1),...,(x_m,y_m)\}$ ，令 $S_X={x_1,...,x_m}$ ，下式对于 $G$ 和 $H$ 直接的经验拉德马赫复杂度成立：
$\hat{R}_S(G)=\frac{1}{2}\hat{R}_X(H)$
证明：
$\hat{R}_S(G)=\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i·1_{h(x_i)\neq y_i}]\\ =\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i·\frac{1-y_ih(x_i)}{2}] \\ =\frac{1}{2}\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m-\sigma_iy_ih(x_i)]\\ =\frac{1}{2}\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_ih(x_i)]=\frac{1}{2}\hat{R}_X(H)$
注意：
对于固定的 $y_i$ ， $y_i\sigma_i$ 和 $\sigma_i$ 分布统一。

定理2 拉德马赫复杂度边界——二分类

这里介绍二分类问题的拉德马赫复杂度边界。
令 $H$ 表示映射族，映射到 ${-1,1\}$ , $D$ 是样本空间 $X$ 的分布。对于任意的 $\delta>0$ ，都有 $1-\delta$ 的把握对于所有的大小为 $m$ 的样本集 $S$ ：
$R(h)\leq\hat{R}_S(h)+R_m(H)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\\ R(h)\leq\hat{R}_S(h)+\hat{R}_S(H)+3\sqrt{\frac{\log\frac{1}{\delta}}{2m}}$

注意：这里可能因为我的书写问题引发误会，括号里是小写字母的表示empirical error/generalization error，括号里是大写字母的表示拉德马赫复杂度
所以， $R (h)$ 其实就是 $E (g)$ ， $\hat{R}_S(h)$ 其实就是 $\hat{E}_S(g)$ , $2R_m(G)=R_m(H)$ (根据引理1）。于是可以得到定理2。

至此，我们利用拉德马赫不等式得到了无限映射集情况下的generalization error的上界。第一个不等式具有理论意义，而第二个不等式才具有实际意义，因为 $\hat{R}_S(H)$ 才可计算，因为他是依赖数据（data-dependent）的，对于一个特定的样本集 $S$ ，我们就可以计算这个边界。那么 $\hat{R}_S(H)$ 咋求呢？

$\hat{R}_S(H)=\mathop{E}\limits_\sigma[\sup\limits_{h\in H}\frac{1}{m}\sum_{i=1}^m-\sigma_ih(x_i)]=-\mathop{E}\limits_\sigma[\inf\limits_{h\in H}\sum_{i=1}^m\frac{1}{m}\sigma_ih(x_i)]$
于是，对于特定的 $\sigma$ 向量，计算 $\inf\limits_{h\in H}\sum_{i=1}^m\frac{1}{m}\sigma_ih(x_i)$ 相当于一个最小化经验损失的问题，对于一些映射集来说，这是一个十分困难的问题。下一节再讲！

总结

利用拉德马赫复杂度、McDarimid不等式等可以帮我们导出更一般化（infinit hypothesis set）的generalization error边界！

有不对的地方欢迎指出！=v=

九二_

关注

5
点赞
踩
21

收藏

觉得还不错? 一键收藏
2
评论
Foundations of Machine Learning 2nd——第三章（一）拉德马赫复杂度

Fundations of Machine Learning 2nd——第三章（一）拉德马赫复杂度和VC维度回顾第二章拉德马赫复杂度定义1 经验拉德马赫复杂度（Empirical Rademacher complexity）定义2 拉德马赫复杂度定理1引理1定理2 拉德马赫复杂度边界——二分类总结回顾第二章我们在设计算法的时候肯定要考虑他的可行性以及需要多少训练样本才能返回一个比较准确的从输入到输出的映射。第二章就介绍了一个这样的框架——PAC框架，它能够帮助我们确定模型的可行性和训练样本的大小，以及g
复制链接

扫一扫