周志华西瓜书《机器学习》习题提示——第10章

人工干智能

已于 2023-07-24 16:12:51 修改

阅读量345

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：机器学习人工智能

于 2023-07-23 16:09:50 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/131880623

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 25 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

文章探讨了决策树与k近邻分类器的边界特性，解释了贝叶斯最优分类器的误差关系，并介绍了线性降维方法如PCA和KPCA。此外，还讨论了流形学习中的局部线性嵌入（LLE）算法及其在新样本降维中的应用，以及度量学习中如何将欧氏距离推广为马氏距离。

摘要由CSDN通过智能技术生成

习题提示

10.1：
决策树分类的边界是折线【西瓜书图4.11】，且形成凸形，而 $k$ 近邻分类通常边界不清晰甚至没有边界。

10.2：
本题以 $err$ 表示【西瓜书(10.2)】中的 $P (err)$ ，贝叶斯最优分类器： $c^*=\mathop{\arg\max}\limits_cP(c|\boldsymbol{x})$ ，则有：
$\begin{align} P(c^*|\boldsymbol{x})\geqslant P(c|\boldsymbol{x}) \tag{1}\\ err*=1-P(c^*|\boldsymbol{x}) \tag{2}\\ err=1-P(c|\boldsymbol{x}) \tag{3} \end{align}$

由式(2)(3)有：
$\begin{align} err=1-P(c|\boldsymbol{x})\geqslant 1-P(c^*|\boldsymbol{x})=err^* \tag{4} \end{align}$
即【西瓜书(10.40)】左侧不等式得证.
$\begin{align} err&\backsimeq 1-\sum_{c\in \mathcal{Y} }{P(c|\boldsymbol{x})}^2\quad \text{（由【西瓜书(10.2)】第二行）}\notag\\ &= 1-{P(c^*|\boldsymbol{x})}^2-\sum_{c\neq c^* }{P(c|\boldsymbol{x})}^2\notag\\ &= (1-{P(c^*|\boldsymbol{x})})(1+{P(c^*|\boldsymbol{x})})-\sum_{c\neq c^* }{P(c|\boldsymbol{x})}^2\notag\\ &= err^*(2-err^*)-\sum_{c\neq c^* }{P(c|\boldsymbol{x})}^2 \tag{5} \end{align}$

这里我们作点数学知识准备：将不等式 $a^2+b^2\geqslant 2ab$ 推广到一般情形：
$\begin{align} &\because\ P_i^2+P_j^2\geqslant 2P_iP_j\notag\\ &\therefore\ \sum_i\sum_j(P_i^2+P_j^2)\geqslant 2\sum_i\sum_jP_iP_j\notag\\ &\therefore\ n\sum_iP_i^2\geqslant \sum_i\sum_jP_iP_j=(\sum_iP_i)^2 \tag{6} \end{align}$

在式(6)中，令： $P_i=P(c|\boldsymbol{x})$ ，（ $c\in \mathcal{Y},c\neq c^*$ ）故 $n=|\mathcal{Y}|-1$ 。
式(5)的第2项应用(6)有：
$\begin{align} (|\mathcal{Y}|-1)\sum_{c\neq c^*}P(c|\boldsymbol{x})^2\geqslant (\sum_{c\neq c^*}P(c|\boldsymbol{x}))^2 \tag{7} \end{align}$
由式(7)(5)整理即【西瓜书(10.40)】右侧不等式得证。

10.3：
参见8、协方差矩阵的特征值中的式 (D10)的证明。

10.4：
参见8、协方差矩阵的特征值中的式 (D11)的讨论。

注：10.3与10.4这两题都是讨论“中心化”问题。 “中心化”实际上是作平移，将坐标原点平移到“中心点”，这样，数据集就关于原点“对称”（物理质心），再求方差就简化了。

10.5：
投影变换公式是基于正交矩阵（即【西瓜书(10.15)】中 $\mathrm{s.t.}\mathbf{W}^\mathrm{T}\mathbf{W}=\mathbf{I}$ ）推导的，故当使用正交投影矩阵时，估值会更准确。而非正交是现实问题的普遍现象，因此，采用非正交的方式的优势是适应范围广，缺点是损失了一定的合理性。

10.6：
这是一个实践题，理论依据参见10.6 图像压缩（图像坐标x压缩成了坐标z么？错！）。

10.7：
核化线性降维与流形学习从整体上看都是非线性变换，而且都是以线性变换为基础。流形学习基于欧氏空间的“连续拼接”，当局部具有线性不变性，则为LLE算法，核化线性降维是基于核空间中进行线性变换，对应于PCA降维有KPCA算法。优点就是利用线性变换使问题得到了极大简化，缺点就是寻找适合的“核”及“局部”没有通用的方法。

10.8：
短路：近邻范围指定过大时，距离很远的点，被误认为近邻；断路：近邻范围指定过小时，没有点的区域被误认为与其它区域不存在连接。处理方法是寻找一个度量“影响”的连续函数，变“局部视野”为“全局视野”，例如，【西瓜书图10.7】采用测地线距离以及【西瓜书(10.35)】采用影响概率。

10.9：
从LLE算法可知，它是对数据集 $\{\boldsymbol{x}_i\}_{i=1}^m$ 进行“批量”转换为 $\{\boldsymbol{z}_i\}_{i=1}^m$ ，但产生的点具有一一对应关系。即对于 $i$ ，点 $\boldsymbol{x}_i$ 对应于点 $\boldsymbol{z}_i$ 。

设新样本为 $\boldsymbol{x}_0$ ，找到其 $k$ 近邻点及下标集 $Q_0$ ，由【西瓜书(10.28)】计算出 $w_{0j},(j \in Q_0)$ ，则得到 $\boldsymbol{x}_0$ 的近似点：
$\begin{align} \hat{\boldsymbol{x}}_0=\sum_{j\in Q_0}w_{0j}\boldsymbol{x}_j \tag{8} \end{align}$
该近似点对应到低维空间中：
$\begin{align} \hat{\boldsymbol{z}}_0=\sum_{j\in Q_0}w_{0j}\boldsymbol{z}_j \tag{9} \end{align}$
则可将 $\hat{\boldsymbol{z}}_0$ 作为新样本 $\boldsymbol{x}_0$ 的降维结果。