机器学习-白板推导系列(五)-降维（Dimensionality Reduction）

最新推荐文章于 2022-10-03 08:10:08 发布

Paul-Huang

最新推荐文章于 2022-10-03 08:10:08 发布

阅读量359

点赞数 1

分类专栏：机器学习-白板推导文章标签：机器学习算法

本文链接：https://blog.csdn.net/huang1024rui/article/details/112599068

版权

机器学习-白板推导专栏收录该内容

23 篇文章 43 订阅

订阅专栏

5. 降维

5.1 简介

过拟合
- 在机器学习中，我们最关心的是泛化误差，在降低泛化误差的过程中，我们需要克服的最大困难便是过拟合（overfitting）。
- 在线性回归中介绍过，解决过拟合的问题中，我们常用的方法是：增加数据量、正则化和降维。我们也曾用过Lasso和Ridge两种正则化方法，增加penalty使得 $w$ 趋向于 $0$ ，来消除一些特征。
维度灾难（Curse of Dimensionality）
- Def：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。高维度有更大的特征空间，需要更多的数据才可以进行较准确的估计。
  
  若特征是二值的，则每增加一个特征，所需数据量都在以2的指数级进行增长，更何况很多特征不只是二值的。
- 几何角度1
  - 上图表示一个多维空间（以二维为例），设正方形边长为 $1$ ，则其内切圆半径为 $0.5$ ，则正方形面积为 $1$ ，内切圆面积为 $\pi (0.5)^2$ 。若将此变为三维情况下，正方体体积为 $1$ ，内切球体积为 ${4\over 3}\pi (0.5)^3$ 。
  - 因此球体的体积可以表示为 $k (0.5)^D$ (D为维度)，则 $\lim_{D\to \infty}k (0.5)^D=0$ ，其内切超球体的体积为 $0$ 。由此可知， $\color{red}高维情况下，数据大都分布在四角（正方形内，内切圆外）$ ，稀疏性太大，不好分类。
    
    维度越大，超球体体积越小。说明落在超球体内的样本越少，因为超球体是超立方体的内切球。不在球内,那只能在角落！
- 几何角度2
  
  1. 上图也表示一个多维空间（以二维为例），则其中图形的体积有如下关系：外圆半径 $r = 1$ ，内圆半径为 $r-\varepsilon$ 。同样在高维情况下，外圆体积为 $V_{外圆}=k1^D=k$ ，中间的圆环体积为 $V_{圆环}=k-k(1-\varepsilon)^D$ ，则：
  $\lim_{D\to \infty}{V_{圆环}\over V_{外圆}}=\lim_{D\to \infty}{k-k(1-\varepsilon)^D\over k}=\lim_{D\to \infty}1-({1-\varepsilon})^D=1$
  
  高维情况下，圆环几乎占据了整个外圆，内圆体积趋向于0，导致数据稀疏。

结论:

三维的角度来看，是非常震惊的；这类似于人的大脑，几乎所有的智慧都集中在大脑皮层。
由此可以看出，二维或三维上的一些理解，在高维是不适用的。

降维方法
降维可以作为一种防止过拟合的方式，其具体的方法包含下列几种：
$降维\left\{\begin{matrix} 直接降维（特征选择）\\ 线性降维（PCA、MDS）\\ 非线性降维（流形） \end{matrix}\right.$
- 直接降维：特征选择：直接把不重要的特征扔掉；
- 线性降维：PCA，MDS（多维空间缩放）；
- 非线性降维：流形(嵌入了高维空间的地维结构), 等度量映射(ISOMAP), 局部线性嵌入(LLE)。

5.2 样本均值&样本方差的矩阵表示

PCA和SVD都是在矩阵上进行操作，所以本节计算一下样本均值和样本方差的矩阵表示形式。

5.2.1 概述

数据
假设有以下数据：
$x_{i}\in \mathbb{R}^{p},i=1,2,\cdots ,N\\ X=(x_{1},x_{1},\cdots ,x_{N})^{T}=\begin{pmatrix} x_{1}^{T}\\ x_{2}^{T}\\ \vdots \\ x_{N}^{T} \end{pmatrix}=\begin{pmatrix} x_{11} & x_{12} & \cdots &x_{1p} \\ x_{21} & x_{22}& \cdots &x_{2p} \\ \vdots & \vdots & \ddots &\vdots \\ x_{N1}& x_{N2} & \cdots & x_{Np} \end{pmatrix}_{N \times p}$
样本均值与样本方差
- 样本均值(Sample Mean):
  $\overline X_{p\times 1}={1\over N}\sum_{i=1}^N x_i$
- 样本方差(Sample Convariance):
  $S_{p\times p}={1\over N} \sum^{N}_{i=1}(x_i - \overline X)(x_i - \overline X)^T$

5.2.2 矩阵化均值与方差

均值矩阵化：
$\bar{x}=\frac{1}{N}\sum_{i=1}^{N}x_{i}=\frac{1}{N}\underset{X^{T}}{\underbrace{\begin{pmatrix} x_{1} & x_{2} & \cdots & x_{N} \end{pmatrix}}}\begin{pmatrix} 1\\ 1\\ \vdots \\ 1 \end{pmatrix}=\frac{1}{N}X^{T}1_{N}$
规定向量： $1_{N}=\begin{pmatrix} 1\\ 1\\ \vdots \\ 1 \end{pmatrix}_{N\times 1}$
方差矩阵化
$S=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\bar{x})(x_{i}-\bar{x})^{T}\\ =\frac{1}{N}\begin{pmatrix} x_{1}-\bar{x} & x_{2}-\bar{x} & \cdots & x_{N}-\bar{x} \end{pmatrix}\begin{pmatrix} (x_{1}-\bar{x})^{T}\\ (x_{2}-\bar{x})^{T}\\ \vdots \\ (x_{N}-\bar{x})^{T} \end{pmatrix}$
上式中 $\begin{pmatrix} x_{1}-\bar{x} & x_{2}-\bar{x} & \cdots & x_{N}-\bar{x} \end{pmatrix}=\begin{pmatrix} x_{1} & x_{2} & \cdots & x_{N} \end{pmatrix}-\begin{pmatrix} \bar{x} & \bar{x} & \cdots & \bar{x} \end{pmatrix}$ ，则:
$S=X^{T}-\bar{x}\begin{pmatrix} 1 & 1 & \cdots & 1 \end{pmatrix}\\ =X^{T}-\bar{x}1_{N}^{T} =X^{T}-\frac{1}{N}X^{T}1_{N}1_{N}^{T}\\ =X^{T}(I_{N}-\frac{1}{N}1_{N}1_{N}^{T})$
则 $S=\frac{1}{N}X^{T}\underset{H}{\underbrace{(I_{N}-\frac{1}{N}1_{N}1_{N}^{T})}}(I_{N}-\frac{1}{N}1_{N}1_{N}^{T})^{T}X\\ (H称为中心矩阵，centering\ matrix)$
则 $\color{red}S=\frac{1}{N}X^{T}HH^{T}X$
$\ matrix$ 的作用是将一组数据中心化， $H$ 矩阵有如下性质：
- 性质： $\color{red}①\; H^{T}=H$
  $H^{T}=(I_{N}-\frac{1}{N}1_{N}1_{N}^{T})^{T}=I_{N}-\frac{1}{N}1_{N}1_{N}^{T}=H$
- 性质： $\color{red}②\; H^{n}=H$
  $H^{2}=H\cdot H=(I_{N}-\frac{1}{N}1_{N}1_{N}^{T})(I_{N}-\frac{1}{N}1_{N}1_{N}^{T})\\ =I_{N}-\frac{2}{N}1_{N}1_{N}^{T}+\frac{1}{N^{2}}1_{N}1_{N}^{T}1_{N}1_{N}^{T}\\ =I_{N}-\frac{2}{N}\begin{pmatrix} 1\\ 1\\ \vdots \\ 1 \end{pmatrix}\begin{pmatrix} 1 & 1 & \cdots & 1 \end{pmatrix}+\frac{1}{N^{2}}\begin{pmatrix} 1\\ 1\\ \vdots \\ 1 \end{pmatrix}\begin{pmatrix} 1 & 1 & \cdots & 1 \end{pmatrix}\begin{pmatrix} 1\\ 1\\ \vdots \\ 1 \end{pmatrix}\begin{pmatrix} 1 & 1 & \cdots & 1 \end{pmatrix}\\ =I_{N}-\frac{2}{N}\begin{bmatrix} 1 & 1 & \cdots & 1 \\ 1 & 1 & \cdots & 1 \\ \vdots & \vdots & \ddots & \vdots \\ 1 & 1 & \cdots & 1 \end{bmatrix}_{N\times N}+\frac{1}{N^{2}}\begin{bmatrix} 1 & 1 & \cdots & 1 \\ 1 & 1 & \cdots & 1 \\ \vdots & \vdots & \ddots & \vdots \\ 1 & 1 & \cdots & 1 \end{bmatrix}_{N\times N}\begin{bmatrix} 1 & 1 & \cdots & 1 \\ 1 & 1 & \cdots & 1 \\ \vdots & \vdots & \ddots & \vdots \\ 1 & 1 & \cdots & 1 \end{bmatrix}_{N\times N}\\ =I_{N}-\frac{2}{N}\begin{bmatrix} 1 & 1 & \cdots & 1 \\ 1 & 1 & \cdots & 1 \\ \vdots & \vdots & \ddots & \vdots \\ 1 & 1 & \cdots & 1 \end{bmatrix}_{N\times N}+\frac{1}{N^{2}}\begin{bmatrix} N & N & \cdots & N \\ N & N & \cdots & N \\ \vdots & \vdots & \ddots & \vdots \\ N & N & \cdots & N \end{bmatrix}_{N\times N}\\ =I_{N}-\frac{2}{N}\begin{bmatrix} 1 & 1 & \cdots & 1 \\ 1 & 1 & \cdots & 1 \\ \vdots & \vdots & \ddots & \vdots \\ 1 & 1 & \cdots & 1 \end{bmatrix}_{N\times N}+\frac{1}{N}\begin{bmatrix} 1 & 1 & \cdots & 1 \\ 1 & 1 & \cdots & 1 \\ \vdots & \vdots & \ddots & \vdots \\ 1 & 1 & \cdots & 1 \end{bmatrix}_{N\times N}\\ =I_{N}-\frac{1}{N}1_{N}1_{N}^{T} =H$
  则 $H^{n}=H$ ，其中 $1_N1_N^T1_N1_N^T$ 为元素全是 $N$ 的矩阵。

最终可以得到
$\color{red}\bar{x}=\frac{1}{N}X^{T}1_{N}\\ S=\frac{1}{N}X^{T}HX$

5.3 主成分分析(PCA)—最大投影方差角度

5.3.1 概述

PCA的思想可以总结为： $\color{red}一个中心，两个基本点$ 。
- $\color{red}一个中心$ ：PCA是对原始特征空间的重构，将原来的线性相关的向量转换成线性无关的向量；
- $\color{red}两个基本点$ ： $\color{red}最大投影方差$ 和 $\color{red}最小重构距离$ ，这是本质相同的两种方法。
最大投影方差

这一组数据点投影到 $u_1$ 方向后方差更大，数据更分散，而投影到 $u_2$ 方向会很密集，因此我们称 $u_1$ 方向为主成份。主成份分析的意思是找到一组线性无关的基，这组基就是主成份，若我们想降到 $q$ 维，便选择其前 $q$ 个基即可。
- LDA对应的是: $\color{red}类内小, 类间大$ ；
- PCA对应的是 $\color{red}最大投影方差$ 。
最小重构距离
- 最小重构距离：以最小代价将投影后的数据重构回去。
- 其本质与最大投影方差类似，若投影后数据越分散，则重构越容易；若数据越集中，甚至重合到一个点，便很难重构回去。因此最小重构距离也需要寻找投影后数据最分散的方向。
数据
- $X=\begin{pmatrix} x_1&x_2& \cdots& x_N \end{pmatrix}^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}= \begin{pmatrix} x_{11}&x_{12} & \cdots& x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ x_{N1}&x_{N2}&\cdots &x_{Np} \end{pmatrix}_{N\times p}$
  其中 $x_i \in \mathbb R^p ,\ \ i=1, 2, \cdots, N$ 。
- 样本均值为： $\overline x={1\over N}\sum_{i=1}^N x_i={1\over N}X^T1_N$
- 样本方差为： $S_{p\times p}={1\over N} \sum^{N}_{i=1}(x_i - \overline X)(x_i - \overline X)^T={1\over N}X^THX$
  其中： $1_N=\begin{pmatrix} 1\\1\\\vdots\\1 \end{pmatrix}$ ， $H_N=I_N-{1\over N}1_N1_N^T$ ， $\overline X\in \mathbb R^p$ ， $S\in \mathbb R^{p\times p}$ 。

5.3.2 最大投影方差角度模型建立

假设投影方向为 $u_i$ ，由于我们只关注投影的方向，因此将 $u$ 的模设置为 $1$ ，即 $\color{red}{u_i}^{T}{u_i}=1$ 。

将数据进行中心化
$x'_i=x_i-\hat x$
将 $x'_i$ 投影到 ${u_i}$
$projection=\Vert x'\Vert \cos{\theta}$
其中 $\theta$ 为 $x^{'}$ 与 ${u_i}$ 的夹角。
$\cdot {u_i} = \Vert x'\Vert\Vert {u_i}\Vert \cos{\theta}=\Vert x'\Vert \cos{\theta}$
因为 $\cdot {u_i} = x'^T {u_i}$ ，所以：
$projection=x'^T {u_i}$
由于 $x^{'}$ 已经中心化，其均值为 $0$ ，因此投影方差为 $(x'^T {u_i})^2= \color{red}((x_i-\overline x)^T{u_i})^2$ 。
目标函数
我们定义损失函数如下：
$J({u_i})=\frac{1}{N}\sum_{i=1}^{N}((x_{i}-\hat{x})^{T}{u_i})^{2}\\ =\sum_{i=1}^{N}\frac{1}{N}{u_i}^{T}(x_{i}-\hat{x})(x_{i}-\hat{x})^{T}{u_i}\\ =u_1^{T}\underset{S}{\underbrace{[\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat{x})(x_{i}-\hat{x})^{T}]}}{u_i}$
其中 $\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat{x})(x_{i}-\hat{x})^{T}$ 正是协方差矩阵 $S$ ,因此：
$J({u_i}) ={u_i}^{T}S{u_i}$
最大投影方差角度问题
因此最大投影方差角度问题就转换为以下最优化问题：
$\color{blue}\left\{\begin{matrix} \hat{{u_i}}=\underset{{u_i}}{argmax}\;{u_i}^{T}S{u_i}\\ s.t.\; \;{u_i}^{T}{u_i}=1 \end{matrix}\right.$
求解模型
使用拉格朗日乘子法进行求解：
$L({u_i},\lambda )={u_i}^{T}S{u_i}+\lambda (1-{u_i}^{T}{u_i})\\ \frac{\partial L}{\partial {u_i}}=2S{u_i}-2\lambda {u_i}=0$ $\color{red}S\underset{特征向量}{{u_i}}=\underset{特征值}{\lambda} {u_i}$
- 此式是协方差矩阵 $S$ 的特征方程，其中 $\lambda$ 为特征值， ${u_i}$ 为特征向量。
- 此式中，特征向量 ${u_i}$ 便是投影方向， $\color{red}特征值最大的特征向量是投影方差最大的主成份$ 。
降维
想要降到 $q$ 维 $(q < p)$ ，则只需要将对应特征值最大的前 $q$ 个特征向量取出来作为投影方向然后获得数据在这些方向上的投影即为重构的坐标，即：
$\begin{pmatrix} x_{1}^{T}\\ x_{2}^{T}\\ \vdots \\ x_{N}^{T} \end{pmatrix}_{N\times p}\begin{pmatrix} u_{1} & u_{2} & \cdots & u_{q} \end{pmatrix}_{p\times q}=\begin{bmatrix} x_{1}^{T}u_{1}& x_{1}^{T}u_{2}& \cdots & x_{1}^{T}u_{q}\\ x_{2}^{T}u_{1}& x_{2}^{T}u_{2}& \cdots & x_{2}^{T}u_{q}\\ \vdots & \vdots & \ddots & \vdots \\ x_{N}^{T}u_{1}& x_{N}^{T}u_{2}& \cdots & x_{N}^{T}u_{q} \end{bmatrix}_{N\times q}$
- 特征向量表示投影变换的方向，特征值表示投影变换的强度。通过降维,我们希望减少冗余信息,提高识别的精度,或者希望通过降维算法来寻找数据内部的本质结构特征。
- 找最大的特征值是因为，在降维之后要最大化保留数据的内在信息，并期望在所投影的维度上的离散最大。

5.4 主成分分析(PCA)—最小重构代价角度

上节课从最大方差角度来计算了降维时最优投影方向：特征值较大的特征向量。

5.4.1 概述

如下图，假设维度为2，即 $p = 2$ ， $x_i$ 为某一个样本点， $u_1，u_2$ 为数据集 $X$ 协方差矩阵的特征向量( $u_i^T\cdot u_i = 1$ )，其对应的特征值为 $\lambda_1, \lambda_2$ 。
- 将 $x_i$ 投影到 $u_1$ 和 $u_2$ 后的坐标为 $x_i^Tu_1)u_1+(x_i^Tu_2)u_2$ ;
  
  其中 $x_i^Tu_i)$ 为投影到 $u_1$ 向量后的长度，其中 $\vert u_i\vert=1$ 。
- 若将 $X$ 降到 $1$ 维，选取 $u_2$ ，而不是 $u_1$ （因为 $u_2$ 的投影更大，损失更小），则 $x'_i = (x_i^Tu_2)u_2$ 。
以上便是从 $2$ 维降到 $1$ 维。同样可以推广到：从 $p$ 维降到 $q$ 维( $p > q$ )，可以实现最小重构代价角度。
已知数据
- $X=\begin{pmatrix} x_1&x_2& \cdots& x_N \end{pmatrix}^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}= \begin{pmatrix} x_{11}&x_{12} & \cdots& x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ x_{N1}&x_{N2}&\cdots &x_{Np} \end{pmatrix}_{N\times p}$
  其中 $x_i \in \mathbb R^p ,\ \ i=1, 2, \cdots, N$ 。
- 样本均值为： $\bar x={1\over N}\sum_{i=1}^N x_i={1\over N}X^T1_N$
- 样本方差为： $S_{p\times p}={1\over N} \sum^{N}_{i=1}(x_i - \overline X)(x_i - \overline X)^T={1\over N}X^THX$
  其中： $1_N=\begin{pmatrix} 1\\1\\\vdots\\1 \end{pmatrix}$ ， $H_N=I_N-{1\over N}1_N1_N^T$ ， $\overline X\in \mathbb R^p$ ， $S\in \mathbb R^{p\times p}$ 。

5.4.2 最小重构代价

中心化
$x'_i = x_i-\bar x,\;(i=1, 2, \cdots, N)$
将 $X$ 重构到以特征向量为基的向量空间
重构到以特征向量 $u_1,u_2,...,u_p)$ 为基的向量空间
$x''_i=\sum_{k=1}^p(x{'}_i^Tu_k)u_k,\;(i=1, 2, \cdots, N)$
将 $X$ 降维
将 $X$ 从 $p$ 降维到 $q$ 维（ $p > q$ ），假设特征向量 $u_i$ 按照特征值 $\lambda_i$ 的大小， $\color{red}从大到小排列$ ( $u_1$ 对应的 $\lambda_1$ 最大， $u_p$ 对应的 $\lambda_p$ 最小)。则降维可以表示为：
$\hat {x''_i}=\sum_{k=1}^q(x{'}_i^Tu_k)u_k$
目标函数
最小重构距离是指将降维后的 $\hat {x''_i}$ 还原为 $x''_i$ 所需代价最小，因此其代价可以用二者差值来表示：
$J=\frac{1}{N}\sum_{i=1}^{N}\left \| (x_{i}-\bar{x})-\hat{x}_{i}\right \|^{2}\\ =\frac{1}{N}\sum_{i=1}^{N}\left \| \sum_{k=q+1}^{p}((x_{i}-\bar{x})^{T}u_{k})u_{k}\right \|^{2}$

$x{'}_i^Tu_k$ 是 $x'_i$ 在第 $k$ 维的投影。则：

$J=\frac{1}{N}\sum_{i=1}^{N}\sum_{k=q+1}^{p}((x_{i}-\bar{x})^{T}u_{k})^{2}\\ =\sum_{k=q+1}^{p}\underset{u_{k}^{T}Su_{k}}{\underbrace{\frac{1}{N}\sum_{i=1}^{N}((x_{i}-\bar{x})^{T}u_{k})^{2}}}$
则最小重构距离问题可以转化为以下最优化问题：
$\left\{\begin{matrix} \hat{u}=argmin\sum_{k=q+1}^{p}u_{k}^{T}Su_{k}\\ s.t.\; u_{k}^{T}u_{k}=1 \end{matrix}\right.$
求解优化问题
此优化问题与上一节一致，使用拉格朗日乘子法，很容易求得：
$Su_k=\lambda_k u_k$

目标 $u_k$ 为协方差矩阵 $S$ 的前 $q$ 个特征向量（前 $q$ 大的特征值对应的特征向量）。

5.5 SVD角度看PCA和PCoA

本节将从奇异值分解(SVD)的角度来看PCA。
已知数据

$X=\begin{pmatrix} x_1&x_2& \cdots& x_N \end{pmatrix}^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}= \begin{pmatrix} x_{11}&x_{12} & \cdots& x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ x_{N1}&x_{N2}&\cdots &x_{Np} \end{pmatrix}_{N\times p}$
其中 $x_i \in \mathbb R^p ,\ \ i=1, 2, \cdots, N$ 。
样本均值为： $\bar x={1\over N}\sum_{i=1}^N x_i={1\over N}X^T1_N$
样本方差为： $S_{p\times p}={1\over N} \sum^{N}_{i=1}(x_i - \overline X)(x_i - \overline X)^T={1\over N}X^THX$
其中： $1_N=\begin{pmatrix} 1\\1\\\vdots\\1 \end{pmatrix}$ ， $H_N=I_N-{1\over N}1_N1_N^T$ ， $\overline X\in \mathbb R^p$ ， $S\in \mathbb R^{p\times p}$ 。

5.5.1 SVD角度看PCA的特征向量选取

将 $X$ 从 $\color{Teal}p$ 降维到 $\color{Teal}q$ 维（ $\color{Teal}p>q$ ），有以下2个方法：

通过协方差矩阵S奇异值分解
协方差矩阵S的特征分解：因为 $S$ 为对称矩阵，所以 $\color{red}S=GKG^{T}$ ，其中
$G^{T}G=I,K=\begin{bmatrix} k_{1} & & & \\ & k_{2} & & \\ & & \ddots & \\ & & & k_{p} \end{bmatrix},k_{1}\geq k_{2}\geq \cdots \geq k_{p}$
协方差矩阵 $S$ 的前 $q$ 个特征向量（前 $q$ 大的特征值对应的特征向量）即为PCA的转换后的坐标。
通过数据X奇异值分解
- 首先，将数据 $X$ 进行中心化，左乘中心矩阵 $H_N$ ，即： $H X$ 。
- 将中心化后的 $H X$ 进行奇异值分解：
  $HX=U\Sigma V^T$
  
  $U$ 为 $\mathbb R^{N\times N}$ 的矩阵，列正交，并且 $\color{blue}U^TU=I$ ； $\Sigma$ 为 $\mathbb R^{N\times P}$ 的矩阵且为 $\color{blue}对角矩阵$ ； $V^T$ 为 $\mathbb R^{P\times P}$ 的矩阵，正交矩阵，并且 $\color{blue}V^TV=VV^T=I$
- 将 $H X$ 与 $S$ 进行联系
  5.2节的结论 $\color{red}S={1\over N}X^THX$ ，且 $H$ 有以下性质： $H=H^T，H^2=H$ 。则：
  $S_{p\times p}=\frac{1}{N}X^{T}HX=\frac{1}{N}X^{T}H^{T}HX=\frac{1}{N}V\Sigma^{T} U^{T}U\Sigma V^{T}=\frac{1}{N}V\Sigma^{T}\Sigma V^{T}$
  因此 $\color{red}S=\frac{1}{N}V\Sigma^{T}\Sigma V^{T}$ 是 $S$ 的特征值分解， $\Sigma^{T}\Sigma$ 即为上式子中的 $K$ 。

由于通常求解 $\color{red}S$ 并对其奇异值分解比较困难，我们可以用计算 $\color{red}HX$ 奇异值分解找到需要转换的 $\color{Teal}q$ 维度。

5.5.2 SVD角度看PCA的坐标转换

找到 $\color{Teal}q$ 维度后，接下来寻找 $X$ 投影到主成份的方向后的坐标。我们构造矩阵 $T_{N\times N}$ ：
$T_{N\times N}=HXX^{T}H^{T}=U\Sigma V^{T}V\Sigma^{T} U^{T}=U\Sigma \Sigma^{T} U^{T}$
其中 $U\Sigma \Sigma^{T} U^{T}$ 是 $T$ 的特征值分解， $\Sigma \Sigma^{T}$ 为特征值矩阵。则寻找转换后的坐标有以下两种方法：

$\color{red}HX\cdot V$
将 $S$ 进行特征分解然后得到投影的方向，也就是主成分，然后矩阵 $H X V$ 即为重构坐标系的坐标矩阵。即：
$HX\cdot V=U\Sigma V^TV=U\Sigma$
将 $\color{red}T_{N\times N}$ 奇异值分解
将 $T$ 进行特征分解可以直接获得坐标矩阵 $U\Sigma$ ，即：
$T_{N\times N}{\color{Red} {U\Sigma}} =U\Sigma \Sigma^{T} U^{T}U\Sigma ={\color{Red} {U\Sigma}} (\Sigma^{T} \Sigma )$
也就是说 $U\Sigma$ 是 $T_{N\times N}$ 的特征向量组成的矩阵。把这种方法叫做PCoA(Principle Coordinate Analysis)。

注：

应保证 $S$ 和 $T_{N\times N}$ 特征分解得到的特征向量是 $\color{blue}单位向量$ 。
⽅差矩阵 $S\in\mathbb R^{p\times p}$ 的，⽽ $T_{N\times N}\in \mathbb R^{N\times N}$ 的，当样本量较少（ $\color{red}N较少$ ）的时候可以采⽤ PCoA的⽅法。

5.6 概率PCA（p-PCA）

5.6.1 概述

前面几节课从最大投影方差、最小重构代价和SVD 3个角度解决了PCA问题，本节将从概率角度来看PCA，这种方法也被称为P-PCA(Probabilistic PCA)

数据
假设有以下数据：
$x\in \mathbb{R}^{p},z\in \mathbb{R}^{q},p>q$
其中 $x$ 是原始数据， $z$ 是降维后的数据，可以将 $z$ 看做隐变量（latent variable）， $x$ 看做观测变量（observed variable），则p-PCA就可以看做生成模型。
假设
假设 $x$ 和 $z$ 满足以下关系：
$\begin{cases} z\sim N(0_p, I_p)\\ x=Wz+\mu+\varepsilon\\ \varepsilon\sim N(0, \sigma\cdot I_p)\\ \varepsilon \bot z(独立) \end{cases}$
这是一个线性高斯模型，其中 $\varepsilon$ 是噪声，其中 $\sigma \cdot I_p$ 。
求解
求解P-PCA有如下两个步骤：
$\begin{cases} Inference:求p(z|x)\\ Learning:求解参数W,\mu,\sigma^2 \rightarrow EM算法 \end{cases}$
$x$ 的生成过程如下：

上图中数据空间为⼆维，潜在空间为⼀维。⼀个观测数据点 $x$ 的⽣成⽅式为：⾸先从潜在变量的先验分布 $p (z)$ 中抽取⼀个潜在变量的值 $\hat{z}$ ，然后从⼀个各向同性的⾼斯分布（⽤红⾊圆圈表示）中抽取⼀个 $x$ 的值，这个各向同性的⾼斯分布的均值为 $W\hat{z}+\mu$ ，协⽅差为 $σ^{2}I$ 。绿⾊椭圆画出了边缘概率分布 $p (x)$ 的密度轮廓线。
推断（inference）
求解 $P (z ∣ x)$ 的过程如下：
$P(z)\rightarrow P(x|z)\rightarrow P(x)\rightarrow P(z|x)$

5.6.2 求P(x|z)、P(x)、P(z|x)

求 $P (x ∣ z)$
由于 $z$ 是实数，所以：
$E\left [x|z\right ]=E\left [Wz+\mu +\varepsilon |z\right ]=Wz+\mu +0=Wz+\mu \\ Var\left [x|z\right ]=Var\left [Wz+\mu +\varepsilon|z \right ]=\sigma ^{2}I_p$
则： $\color{blue}x|z\sim N(Wz+\mu ,\sigma ^{2}I_p)$
求 $P (x)$
此时 $x$ 为变量，所以：
$E[x]=E[Wz+\mu +\varepsilon ]=E[Wz+\mu ]+E[\varepsilon ]=\mu \\ Var[x]=Var[Wz+\mu +\varepsilon ]=Var[Wz]+Var[\varepsilon ]=WW^{T}+\sigma ^{2}I$
则：
$\color{blue}x\sim N(\mu ,WW^{T}+\sigma ^{2}I)$
求 $P (z ∣ x)$
1. 求 $P (z ∣ x)$ 第二章数学基础中讲的已知边缘概率求条件概率，下面先简单介绍一下接下来需要的数学部分：
  - 将 $x$ 分为两部分，一部分为 $a$ 维 $x_a$ ，一部分为 $b$ 维 $x_b$ , $\mu$ 和 $\Sigma$ 同理 $\begin{pmatrix} x_a\\ x_b \end{pmatrix},\;x\sim N \begin{pmatrix} \begin{bmatrix} \mu_a\\ \mu_b \end{bmatrix}, \begin{bmatrix} \Sigma_{aa} &\Sigma_{ab} \\ \Sigma_{ba} &\Sigma_{bb} \end{bmatrix} \end{pmatrix}$
  - 构造 $\left\{\begin{matrix} x_{b\cdot a}=x_{b}-\Sigma _{ba}\Sigma _{aa}^{-1}x_{a}\\ \mu _{b\cdot a}=\mu_{b}-\Sigma _{ba}\Sigma _{aa}^{-1}\mu_{a}\\ \Sigma _{bb\cdot a}=\Sigma _{bb}-\Sigma _{ba}\Sigma _{aa}^{-1}\Sigma _{ab} \end{matrix}\right.\\ (\Sigma _{bb\cdot a}是\Sigma _{aa}的舒尔补)$
    其中 $\color{blue}x_{b\cdot a}\sim N(\mu _{b\cdot a},\Sigma _{bb\cdot a}),\; \color{black}x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ 。
  - 均值和方差：
    $E[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a\\ D[x_b|x_a]=\Sigma_{bb\cdot a}\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$
    因此可以得到 $\color{blue}x_{b}|x_{a}\sim N(\mu _{b\cdot a}+\Sigma _{ba}\Sigma _{aa}^{-1}x_{a},\Sigma _{bb\cdot a})$
2. 套用上述方法，则：
  $\begin{pmatrix} x\\z \end{pmatrix} \sim N \begin{pmatrix} \begin{bmatrix} \mu\\ 0 \end{bmatrix}, \begin{bmatrix} ww^T+\sigma^2I &\Sigma_{xz} \\ \Sigma_{zx} &I \end{bmatrix} \end{pmatrix}$
  因为 $\Sigma_{xz} = \Sigma_{zx}^T$ ，我们只需求出 $\Sigma_{xz}$ :
  类似的。
  $\Sigma_{xz} =Cov(x,z)\\ =E[(x-\mu )(z-0)^{T}]\\ =E[(Wz+\mu +\varepsilon -\mu )z^{T}]\\ =E[(Wz+\varepsilon )z^{T}]\\ =E[Wzz^{T}+\varepsilon z^{T}]\\ =E[Wzz^{T}]+E[\varepsilon z^{T}]\\ =WE[zz^{T}]+E[\varepsilon ]E[z^{T}]\\ =WE[(z-0 )(z-0 )^{T}]+0\\ =WVar[z]=W$
  因此: $\color{blue}\begin{pmatrix} x\\ z \end{pmatrix}\sim N\left (\begin{bmatrix} \mu \\ 0 \end{bmatrix} ,\begin{bmatrix} WW^{T}+\sigma ^{2}I & W \\ W^{T}& I \end{bmatrix}\right )$
  再次套用上式公式，可得： $p(z|x)=N(w^T(ww^T+\sigma^2I )^{-1}(x-\mu),I-w^T(ww^T+\sigma^2I)^{-1}w)$

注意本小节的思想。先假设，在求解： $P(z)\rightarrow P(x|z)\rightarrow P(x)\rightarrow P(z|x)$

5.7 总结

降维是解决维度灾难和过拟合的重要方法，除了直接的特征选择外，我们还可以采用算法的途径对特征进行筛选；
线性的降维方法以 PCA 为代表，在 PCA 中，我们只要直接对数据矩阵进行中心化然后求奇异值分解或者对数据的协方差矩阵进行分解就可以得到其主要维度。
非线性学习的方法如流形学习将投影面从平面改为超曲面。

Paul-Huang

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习-白板推导系列(五)-降维（Dimensionality Reduction）

5. 降维5.1 简介过拟合在机器学习中，我们最关心的是泛化误差，在降低泛化误差的过程中，我们需要克服的最大困难便是过拟合（overfitting）。在线性回归中介绍过，解决过拟合的问题中，我们常用的方法是：增加数据量、正则化和降维。我们也曾用过Lasso和Ridge两种正则化方法，增加penalty使得www趋向于000，来消除一些特征。维度灾难（Curse of Dimensionality）Def：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。
复制链接

扫一扫

专栏目录