（《机器学习》完整版系列）第12章计算学习理论——12.6 Rademacher复杂度（样本集：分布、i.i.d.采样、样本数）

人工干智能

已于 2023-03-31 10:55:55 修改

阅读量323

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：学习机器学习人工智能

于 2023-03-18 11:37:53 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129634238

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 34 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

假设空间 $\mathcal{H}$ 关于 $D$ 的经验Rademacher复杂度反映了假设空间 $\mathcal{H}$ 的能力。

Rademacher复杂度

VC维是一个与分布无关的视角，而Rademacher复杂度则是与分布有关的。

现在将二分类的标记空间设为 ${-1,+1\}$ ，真实标记 $y$ 与预测标记 $h(\boldsymbol{x})$ 的各种组合为表12.2 中的第1、2列。

观察第3列和第4列，有
$\begin{align} \mathbb{I} (h(\boldsymbol{x})\neq y)=\frac{1-y\cdot h(\boldsymbol{x})}{2} \tag{12.24} \end{align}$
【西瓜书式(12.36)】的推导过程中用到式(12.24)。【西瓜书式(12.36)】表明：要使经验误差最小化，就应使式(12.25)最大化。
$\begin{align} \frac{1}{m}\sum_{i=1}^my_i\cdot h(\boldsymbol{x}_i) \tag{12.25} \end{align}$
其中 $(y_1, y_2,\cdots,y_m)$ 为一组确定的值。

现在设有一组骰子 $({\sigma}_1, {\sigma}_2,\cdots,{\sigma}_m)$ ，每个骰子只有两个面：正面（标记+1）和反面（标记-1），且投掷结果是每面出现的概率相等（均为1/2），让上帝掷这组骰子，每掷一次就有一组确定的值，相当于选出了一组 $(y_1,y_2,\cdots,y_m)$ ，形成了样例集 $D=\{(\boldsymbol{x}_i,y_i)\}_{i=1}^m$ ，就有一个式(12.25)，将这些式子统一表达，即
$\begin{align} \frac{1}{m}\sum_{i=1}^m{\sigma}_i\cdot h(\boldsymbol{x}_i) \tag{12.26} \end{align}$

考察式(12.26)，由于 $D$ 已知，故 $\boldsymbol{x}_i$ 已知，一旦上帝掷好了 ${\sigma}=({\sigma}_1, {\sigma}_2,\cdots,{\sigma}_m)$ 后，式(12.26)中的“变量”为 $h$ ， $h$ 每取一个 $\mathcal{H}$ 中的假设，式(12.26)就有一个值。

设 $h^{\sigma}$ 使得 $h^{\sigma}(\boldsymbol{x}_i)={\sigma}_i,\forall i \in \{1,2,\cdots,m\}$ ，则 ${\sigma}_ih^{\sigma}(\boldsymbol{x}_i)={\sigma}_i^2=1$ ，而对 $\forall h$ 有： ${\sigma}_ih(\boldsymbol{x}_i)\leqslant (+1)(+1)=1$ ，代入式(12.26)有
$\begin{align} \frac{1}{m}\sum_{i=1}^m{\sigma}_i\cdot h(\boldsymbol{x}_i)\leqslant 1 \tag{12.27} \end{align}$
当 $h=h^{\sigma}$ 时，取等号。即
$\begin{align} h^{\sigma}=\mathop{\arg\max}\limits_{h \in \mathcal{H}} \frac{1}{m}\sum_{i=1}^m{\sigma}_i\cdot h(\boldsymbol{x}_i) \tag{12.28} \end{align}$

然而，上述理想的 $h^{\sigma}$ 不一定在 $\mathcal{H}$ 中，因此，退而求其次，考虑
$\begin{align} \sup_{h \in \mathcal{H} } \frac{1}{m}\sum_{i=1}^m{\sigma}_i\cdot h(\boldsymbol{x}_i) \tag{12.29} \end{align}$
这时，一定有 $\mathcal{H}$ 中的 $h$ 使其达到上确界，当然， $h$ 是与 ${\sigma}=({\sigma}_1, {\sigma}_2,\cdots,{\sigma}_m)$ 相关的，表达式为
$\begin{align} h_{{\sigma}}=\arg\sup_{h \in \mathcal{H} } \frac{1}{m}\sum_{i=1}^m{\sigma}_i\cdot h(\boldsymbol{x}_i) \tag{12.30} \end{align}$
若能消去式(12.29)中的随机变量 ${\sigma}_i$ ，则能得到一个定值，消去随机变量的办法通常是取数学期望，即
$\begin{align} \mathop{\mathbb{E} }\limits_{\sigma} [\sup_{h \in \mathcal{H} } \frac{1}{m}\sum_{i=1}^m{\sigma}_i\cdot h(\boldsymbol{x}_i)] \tag{12.31} \end{align}$
其中， ${\sigma}=({\sigma}_1, {\sigma}_2,\cdots,{\sigma}_m)$ 。

式(12.28)表明：若对任意的 ${\sigma}$ ，都有对应的 $h^{\sigma}\in \mathcal{H}$ ，式(12.31)的值最大（为1），此时 $\mathcal{H}$ 能力最强（ $\mathcal{H}$ 具有“打散”能力）。又当 $\mathcal{H}$ 能力最弱时，如，仅含一个元素 $h$ （只能删除表12.1 中的一行，表12.1 参见12.5 无限假设空间），这时，式(12.31)中 $h(\boldsymbol{x}_i)$ 为“常数”，可以消除 $\sup_{h \in \mathcal{H} }$ ，即
$\begin{align} \mathop{\mathbb{E} }\limits_{\sigma} [\sup_{h \in \mathcal{H} } \frac{1}{m}\sum_{i=1}^m{\sigma}_i\cdot h(\boldsymbol{x}_i)] & = \mathop{\mathbb{E} }\limits_{\sigma} [ \frac{1}{m}\sum_{i=1}^m{\sigma}_i\cdot h(\boldsymbol{x}_i)]\notag \\ & =\frac{1}{m}h(\boldsymbol{x}_i)\sum_{i=1}^m\mathop{\mathbb{E} }\limits_{\sigma }{\sigma}_i \notag \\ & =\frac{1}{m}h(\boldsymbol{x}_i)\sum_{i=1}^m\mathop{\mathbb{E} }\limits_{\sigma _i}{\sigma}_i(\text{由${\sigma _i}$的独立性}) \notag \\ & =\frac{1}{m}h(\boldsymbol{x}_i)\times 0\notag \\ & =0 \tag{12.32} \end{align}$

即此时式(12.31)的最小值为0，故式(12.31)反映了假设空间 $\mathcal{H}$ 的能力，将式(12.31)称为假设空间 $\mathcal{H}$ 关于 $D$ 的经验Rademacher复杂度，将这句话融入到一个记号中：
$\begin{align} \hat R_D(\mathcal{H})=\mathbb{E}_{\sigma} [\sup_{h \in \mathcal{H} } \frac{1}{m}\sum_{i=1}^m{\sigma}_i\cdot h(\boldsymbol{x}_i)] \tag{12.33} \end{align}$
其中， ${\sigma}=({\sigma}_1, {\sigma}_2,\cdots,{\sigma}_m)$ 。观察式(12.33)的右边： $\boldsymbol{x}_i$ 被 $\sum_{i=1}^m$ 消掉、 $h$ 被 $sup_{h}$ 消掉、 ${\sigma}_i$ 被 $\mathbb{E}_{\sigma}$ 消掉，剩下的变量为 $\sup_{h \in \mathcal{H} }$ 下的 $\mathcal{H}$ ，而 $\boldsymbol{x}_i$ 源于数据集 $D$ 作为前提。故此有式左边的函数表达形式。

考察式(12.33)，其中 $D$ 有三项特点：分布 $\mathcal{D}$ 、i.i.d.采样、样本数为 $m$ 。分布 $\mathcal{D}$ 为样本空间的属性（设为固定的），在给定 $m$ 后，通过i.i.d.采样可得不同的 $D_1,D_2,\cdots$ ，对于每一个 $D_i$ 都有一个式(12.33)的“经验” $\hat R$ ，“经验” $\hat R$ 的数学期望即为“本质”的 $R$ ，即关于 $\mathcal{X}$ 上分布 $\mathcal{D}$ 的 $R_m$ （Rademacher复杂度）
$\begin{align} R_m(\mathcal{H})=\mathop{\mathbb{E} }\limits_{\substack{D:\thicksim \mathcal{D} \\|D|=m}}[\hat R_D(\mathcal{H})] \tag{12.34} \end{align}$
这又是一次“消元”。

将 ${\sigma}_i\cdot h(\boldsymbol{x}_i)$ 视为随机噪声 ${\sigma}_i$ 对 $h(\boldsymbol{x}_i)$ 的影响，式(12.33)又体现有在给定 $m$ 下随机噪声的总影响。将该概念推广到函数空间中，式(12.33)即为【西瓜书定义12.8的(12.40)】，式(12.34)即为【西瓜书定义12.9的(12.41)】所述的Rademacher复杂度。需要注意的是：它将离散的二值 ${-1,+1\}$ 函数 $h$ 推广到了一般的实值函数 $f$ ，即若 $f$ 离散也不一定是二值函数，即使是二值的，也不一定是 ${-1,+1\}$ 。