周志华西瓜书《机器学习》习题提示——第12章

人工干智能

已于 2023-07-24 16:16:42 修改

阅读量252

点赞数

分类专栏：《机器学习》周志华【西瓜书】辅导文章标签：机器学习人工智能

于 2023-07-23 18:06:27 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/131882227

版权

《机器学习》同时被 2 个专栏收录

143 篇文章 5 订阅

订阅专栏

周志华【西瓜书】辅导

143 篇文章 29 订阅

订阅专栏

习题提示

12.1：
参见12.7 定理的证明技巧（烧脑的数学，好玩的技巧）式(12.43)的证明。

12.2：
参见12.7 定理的证明技巧（烧脑的数学，好玩的技巧）其他证明：（1）【西瓜书引理12.1】的证明

12.3：
参见12.7 定理的证明技巧（烧脑的数学，好玩的技巧）其他证明：（2）【西瓜书推论12.1】的证明

12.4：
参见12.7 定理的证明技巧（烧脑的数学，好玩的技巧）其他证明：（4）【西瓜书例12.1、例12.2】的推广

12.5：
当样本空间有限时，不去谈论VC维，下面设样本空间无限。对于任意的 $n$ ，任取 $n$ 个不同的样本组成样本集 $D$ 。

（1）设示例集 $D$ 中的样本中无连续属性，以这 $n$ 个样本构造无限假设空间的表12-1，该表中每一行对应一个对分 $h_i(i=0,1,2,\cdots,2^n-1)$ ，而每个对分 $h_i$ 对应一个决策树桩（以这 $n$ 个样本作为叶子，按对分 $h_i$ 构造一个决策树桩，即【西瓜书图4.6】的一层决策树），则 ${h_i\}$ 打散了 $D$ 。

（2）设示例集 $D$ 中的样本中含有连续属性（比如， $x$ ），设连续属性 $x$ 在上述（1）中的 $n$ 个样本中共有 $k$ 个不同的取值 $x_1,x_2,\cdots,x_k$ ，现将 $x$ 轴分为 $k$ 段，每段包含一个 $x_i$ ，即每个 $x_i$ 对应于一个区间，再将叶子中的 $x_i$ 替换成对应的区间，则上述（1）中的 ${h_i\}$ 也打散了 $D$ 。对于含多个连续属性的情形类似处理。

由（1）（2）知，决策树桩能打散任意大小（ $n$ ）示例集，故决策树桩的VC维为无限的。

12.6：
类似于12.5题，对于任何的样例集 $D$ 都可以构造出对分它的 $h$ ，故其VC维为无限。

12.7：
最近邻分类器（即INN）对于任何的样例集 $D$ 以其作为预测的 $h$ ，能对任务测试集样本进行测试，让 $D$ 中的样本标记任意变化，对应有不同的 $h_i$ ，则 ${h_i\}$ 能打散 $D$ ，由于样例集 $D$ 的大小没有限定，故最近邻分类器的$\mathcal{H} $的VC维无限。

12.8：
由【西瓜书(12.40)】有：
$\begin{align*} \hat R_Z(\mathcal{F} )&=\mathbb{E} _{\sigma }\mathop{\sup}\limits_c\frac{1}{m}\sum_{i=1}^m\sigma _ic\notag\\ &=\mathbb{E} _{\sigma }\frac{c}{m}\sum_{i=1}^m\sigma _i\notag\\ &=\frac{c}{m}\sum_{i=1}^m\mathbb{E} _{\sigma }\sigma _i\notag\\ &=\frac{c}{m}\sum_{i=1}^m\left(\frac{1}{2}\cdot (-1)+\frac{1}{2}\cdot (1)\right)\notag\\ &=0 \end{align*}$

12.9：
因 $s u p$ 为凸函数，故有：
$\begin{align*} sup\left(\frac{1}{m}\sum \sigma _if_1(\boldsymbol{x})+\frac{1}{m}\sum \sigma _if_2(\boldsymbol{x})\right)\leqslant sup\left(\frac{1}{m}\sum \sigma _if_1(\boldsymbol{x})\right)+sup\left(\frac{1}{m}\sum \sigma _if_2(\boldsymbol{x})\right) \end{align*}$
对其两边取 $\mathbb{E} _{ \sigma _i}$ 即得。

12.10：
（ $k$ 折）交叉验证的损失：
$\begin{align} \hat{ \ell} _{cv}(\mathfrak{L} ,D)=\frac{1}{k}\sum_{i=1}^k\hat{ \ell} (\mathfrak{L}_{D\setminus D_i} ,D_i) \tag{1} \end{align}$
其中， $|D|=m,|D_i|=t,m=t\times k$ 。

在满足【西瓜书定理12.8】条件下，令 $\beta =O(\frac{1}{t})$ ，则由【西瓜书(12.58)】有：
$\begin{align} { \ell}(\mathfrak{L} ,D)-\hat{ \ell} (\mathfrak{L}_{D\setminus D_i} ,D_i)\leqslant O(\frac{1}{\sqrt{t}}) \tag{2} \end{align}$
则：
$\begin{align} { \ell}(\mathfrak{L} ,D)-\hat{ \ell} _{cv}(\mathfrak{L} ,D) &={ \ell}(\mathfrak{L} ,D)-\frac{1}{k}\sum_{i=1}^k\hat{ \ell} (\mathfrak{L}_{D\setminus D_i} ,D_i)\quad \text{（由式(1)}\notag\\ &=\frac{1}{k}\sum_{i=1}^k({ \ell}(\mathfrak{L} ,D)-\hat{ \ell} (\mathfrak{L}_{D\setminus D_i} ,D_i))\notag\\ &\leqslant \frac{1}{k}\sum_{i=1}^kO(\frac{1}{\sqrt{t}})\quad \text{（由式(2)）}\notag\\ &=\frac{1}{k}\sum_{i=1}^kO(\frac{\sqrt{k}}{\sqrt{m}})\notag\\ &=\frac{1}{k}\sum_{i=1}^kO(\frac{1}{\sqrt{m}})\notag\\ &=O(\frac{1}{\sqrt{m}})\notag\\ &\to 0 \quad (when \, m\to \inf) \tag{3} \end{align}$
故可用 $\hat{ \ell} _{cv}(\mathfrak{L} ,D)$ 来估计泛化误差 $\ell}(\mathfrak{L} ,D)$ 。