本文链接：https://blog.csdn.net/qiy_icbc/article/details/129578492

虽然空间是高维，但是与学习任务相关的样本可能只与其中某个曲面相关（比如，过马路只需要一座立交桥），这一限定就实现了降维。
三维中的曲面，可以“展”成平面区域，实现了从三维降成二维。
重点讨论了特征分解进行降维的技巧。这一技巧是机器学习中的常用技巧，我们会多次碰到，请同学们学好它。

低维嵌入

虽然空间是高维，但是与学习任务相关的样本可能只与其中某个曲面相关（比如，过马路只需要一座立交桥），这一限定就实现了降维。例如，三维中的曲面，可以“展”成平面区域，实现了从三维降成二维，即【西瓜书图10.2】所示，其中，左图中的曲面是“嵌入”到三维空间中了。

多维缩放（MDS）要求在降维过程中保持距离不变。样本 $\boldsymbol{x}_i$ 与 $\boldsymbol{x}_j$ 有距离 $\mathrm{dist}_{ij}$ ，则对应于样本集 $D$ 可计算出距离矩阵 $\mathbf{D}$ ，其元素为 $\mathrm{dist}_{ij}=||\boldsymbol{x}_i-\boldsymbol{x}_j||$ 。

设有变换
$\begin{align} \boldsymbol{z}=f(\boldsymbol{x}) \tag{10.1} \end{align}$
变换到低维空间后，算法要求保持距离不变，即 $\{\boldsymbol{z}_i\}_{i=1}^m$ 的距离矩阵仍为 $\mathbf{D}$ 。
% $\boldsymbol{x}_i$ 与 $\boldsymbol{x}_j$ 分别对应为 $\boldsymbol{z}_i$ 与 $\boldsymbol{z}_j$ ，再

而在低维中可以定义距离为欧氏距离，则有： $\mathrm{dist}_{ij}=||\boldsymbol{z}_i-\boldsymbol{z}_j||$ ，其左边为 $\mathbf{D}$ 中元素，而右边平方可展开为： $||\boldsymbol{z}_i-\boldsymbol{z}_j||^2=\boldsymbol{z}_i^{\mathrm{T}}\boldsymbol{z}_i+\boldsymbol{z}_j^{\mathrm{T}}\boldsymbol{z}_j-2\boldsymbol{z}_i^{\mathrm{T}}\boldsymbol{z}_j$ ，由此启发我们考察内积矩阵
$\begin{align} \mathbf{B}= \mathbf{Z}^{\mathrm{T}}\mathbf{Z},\quad (b_{ij}=\boldsymbol{z}_i^{\mathrm{T}}\boldsymbol{z}_j) \tag{10.2} \end{align}$
其中， $\mathbf{Z}$ 的列为 $\boldsymbol{z}_i$ 。

【西瓜书】讨论了由矩阵 $\mathbf{D}$ 求矩阵 $\mathbf{B}$ ，即【西瓜书式(10.10)】，这里我们选择一些式子推导来揭示用到的技巧。

对 $\boldsymbol{z}$ 进行中心化
$\begin{align} {\boldsymbol{z}'}_i=\boldsymbol{z}_i-\frac{1}{m}\sum_{i=1}^m\boldsymbol{z}_i \tag{10.3} \end{align}$
则 $\sum_{i=1}^m{\boldsymbol{z}'}_i=0$ ，后续设 $\boldsymbol{z}$ 已被中心化，即 $\sum_{i=1}^m{\boldsymbol{z}}_i=0$ 。中心化后的效果是矩阵 $\mathbf{B}$ 的行（列）上元素之和为0，即
$\begin{align} \sum_{j=1}^mb_{ij} & =\sum_{j=1}^m\boldsymbol{z}_i^{\mathrm{T}}\boldsymbol{z}_j\notag \\ & =\boldsymbol{z}_i^{\mathrm{T}}\sum_{j=1}^m\boldsymbol{z}_j\notag \\ & =0 \tag{10.4} \\ \sum_{i=1}^mb_{ij} & =0 \qquad \text{（由对称性）}\tag{10.5} \end{align}$

【西瓜书式(10.3)】两端对 $i$ 求和，有
$\begin{align} \sum_{i=1}^md_{ij}^2 & =\sum_{i=1}^mb_{ii}+\sum_{i=1}^mb_{jj}-2\sum_{i=1}^mb_{ij}\notag \\ & =\mathrm{tr}(\mathbf{B})+m\cdot b_{jj}-2\cdot 0 \notag \\ & =\mathrm{tr}(\mathbf{B})+m\cdot b_{jj} \tag{10.6} \end{align}$
式(10.6)即为【西瓜书式(10.4)】，同样可得【西瓜书式(10.5)】。

对式(10.6)两边针对 $j$ 求和，则
$\begin{align} \sum_{j=1}^m\sum_{i=1}^md_{ij}^2 & =\sum_{j=1}^m\cdot \mathrm{tr}(\mathbf{B})+m\cdot \sum_{j=1}^mb_{jj}\notag \\ & =m\cdot \mathrm{tr}(\mathbf{B})+m\cdot \mathrm{tr}(\mathbf{B})\notag \\ & =2m\cdot \mathrm{tr}(\mathbf{B}) \tag{10.7} \end{align}$
式(10.7)即为【西瓜书式(10.6)】的推导过程。

【西瓜书式(10.7) $\,\thicksim$ (10.9)】是引入记号，在此记号下，重写【西瓜书式(10.4) $\,\thicksim$ (10.6)】，有
$\begin{align} b_{jj} & =d_{.j}^2-\frac{\mathrm{tr}(\mathbf{B})}{m}\tag{10.8} \\ b_{ii} & =d_{i.}^2-\frac{\mathrm{tr}(\mathbf{B})}{m}\tag{10.9} \\ 0 & =-d_{..}^2+\frac{2\mathrm{tr}(\mathbf{B})}{m}\tag{10.10} \end{align}$
此三式相加，得
$\begin{align} b_{jj}+b_{ii} & =d_{.j}^2+d_{i.}^2-d_{..}^2 \tag{10.11} \end{align}$

又由【西瓜书式(10.3)】，有
$\begin{align} b_{ij} & =-\frac{1}{2}(d_{ij}^2-b_{ii}-b_{jj}) \tag{10.12} \end{align}$
式(10.11)代入式(10.12)即得【西瓜书式(10.10)】。即可以由矩阵 $\mathbf{D}$ 的元素求出矩阵 $\mathbf{B}$ 的元素。

下面从内积矩阵 $\mathbf{B}$ 找出从高维到低维的变换。

由矩阵理论，可以求出 $\mathbf{B}$ 的特征分解，即
$\begin{align} \mathbf{B}=\mathbf{V}\boldsymbol{\Lambda }\mathbf{V}^{\mathrm{T}} \tag{10.13} \end{align}$
其中，对角矩阵 $\boldsymbol{\Lambda }=\mathrm{diag}({\lambda }_1,{\lambda }_2,\cdots,{\lambda }_d)$ ，主对角线上为从大到小排列的 $\mathbf{B}$ 特征值，其余非主对角线的元素全为0。

由式(10.2)及式(10.13)，有
$\begin{align} \mathbf{Z}^{\mathrm{T}}\mathbf{Z} & =\mathbf{V}\boldsymbol{\Lambda }\mathbf{V}^{\mathrm{T}}\notag \\ & =[\mathbf{V}\boldsymbol{\Lambda }^{\frac{1}{2}}][\boldsymbol{\Lambda }^{\frac{1}{2}}\mathbf{V}]^{\mathrm{T}} \tag{10.14} \end{align}$
其中， $\boldsymbol{\Lambda }^{\frac{1}{2}}=\mathrm{diag}(\sqrt{{\lambda }_1} ,\sqrt{{\lambda }_2} ,\cdots,\sqrt{{\lambda }_d} )$ ，注：这里各特征值均为非负，因为内积矩阵是半正定的，即 $\mathbf{B}$ 为半正定。

由式(10.14)，有
$\begin{align} \mathbf{Z} & =\boldsymbol{\Lambda }^{\frac{1}{2}}\mathbf{V}^{\mathrm{T}} \tag{10.15} \end{align}$

上述推理中，并未涉及到降维，而是说：若变换保持距离不变，则内积矩阵 $\mathbf{B}$ 也保持不变。 $\mathbf{B}$ 经过特征分解后，就可考虑降维：取前面 $d^{'}$ 个特征值（ $\ll d$ ）形成 $\tilde{ \boldsymbol{\Lambda }}$ ，对应于 $\tilde{\mathbf{V}}$ ，则变换所得到的 $\mathbf{Z}$ 可表述为【西瓜书式(10.12)】，注：作为算法应将“近似等于”改为“等于”（相当于作了变换）。
$\begin{align} \mathbf{Z} & \approx \tilde{ \boldsymbol{\Lambda }}^{\frac{1}{2}}\tilde{\mathbf{V}}^{\mathrm{T}} \tag{10.16} \end{align}$
它有两个特点：

$\mathbf{Z}$ 实现了对 $\boldsymbol{x}$ 的降维（从 $d$ 维降到了 $d^{'}$ 维），即以样本集 $D$ 的样本为列的矩阵 $\mathbf{X}$ （ $d$ 行属性）变换成了矩阵 $\mathbf{Z}$ （ $d^{'}$ 行属性）。注：本章的 $\mathbf{X}$ 不是设计矩阵（设计矩阵参见对简化模型数学化中的式(9)），而是设计矩阵的转置。在特值分解时，通常以样本为“列”形成矩阵 $\mathbf{X}$ ，特点： $\mathbf{X}$ 为 $d\times m$ ，协方差矩阵 $\mathbf{X}\mathbf{X}^{\mathrm{T}}$ 为 $d\times d$ 的方形矩阵。
“距离不变”改成了“距离近似”。

上述过程总结成MDS算法【西瓜书图10.3】。过程简记为
$\begin{align*} \begin{cases} & \text{矩阵$\boldsymbol{X}\in \mathbb{R} ^{d\times m}$（$m$列，$d$维$\boldsymbol{x}$组成列）}\Rightarrow \text{距离矩阵$\boldsymbol{D}\in \mathbb{R} ^{m\times m}$}\Rightarrow \notag \\ & \text{内积矩阵$\boldsymbol{B}\in \mathbb{R} ^{m\times m}$}\Rightarrow \text{特征矩阵$\boldsymbol{\Lambda }\in \mathbb{R} ^{m\times m}$}\Rightarrow \notag \\ & \text{截取左上角阵$\boldsymbol{\widetilde{\Lambda} }\in \mathbb{R} ^{d'\times d'}$}\Rightarrow \text{矩阵$\boldsymbol{Z}\in \mathbb{R} ^{d'\times m}$（$m$列，$d'$维$\boldsymbol{z}$组成列）} \end{cases} \end{align*}$
其中，利用特征分解进行降维的技巧，后续我们会多次碰到，摘出为式(10.17)。
$\begin{align} \begin{cases} & \text{内积矩阵$\boldsymbol{B}\in \mathbb{R} ^{m\times m}$}\Rightarrow \text{特征矩阵$\boldsymbol{\Lambda }\in \mathbb{R} ^{m\times m}$}\Rightarrow \\ & \text{截取左上角阵$\boldsymbol{\widetilde{\Lambda} }\in \mathbb{R} ^{d'\times d'}$}\Rightarrow \text{矩阵$\boldsymbol{Z}\in \mathbb{R} ^{d'\times m}$} \\ \end{cases} \tag{10.17} \end{align}$