5 降维 Dimention Reduction

最新推荐文章于 2020-06-15 15:39:45 发布

AI路上的小白

最新推荐文章于 2020-06-15 15:39:45 发布

阅读量478

点赞数 2

分类专栏：机器学习白板推导文章标签：机器学习算法

本文链接：https://blog.csdn.net/cengjing12/article/details/106268447

版权

机器学习白板推导专栏收录该内容

36 篇文章 53 订阅

订阅专栏

我们知道，解决过拟合的问题除了正则化和添加数据之外，降维就是最好的方法。降维的思路来源于维度灾难的问题，从几何角度来看，我们知道 $n$ 维球的体积为： $CR^n$ 那么在球体积与边长为 $2 R$ 的超立方体比值为： $\lim\limits_{n\rightarrow0}\frac{CR^n}{2^nR^n}=0$

当 $n$ 比较小的时候，数据分布还比较均匀，但是随着 $n$ 增大，也就是维度增加的时候，数据的分布会及其不均匀，因为球的体积占比会非常小，在高维数据中，主要样本都分布在立方体的边缘，这就是所谓的维度灾难，所以数据集更加稀疏。

降维的算法分为：

直接降维，特征选择
线性降维，PCA，MDS等
分线性，流形包括 Isomap，LLE 等

假设数据集为： $X=(x_1,x_2,\cdots,x_N)^T=\left(\begin{array}{c}x_{1}^T \\ x_{2}^T\\ \vdots \\ x_{p}^T\end{array}\right)=\left(\begin{array}{c}x_{11} x_{21} \dots x_{1p}\\ x_{21} x_{22} \dots x_{2p}\\ \vdots \quad \vdots \quad \vdots \quad \vdots \\ x_{p1} x_{p2} \dots x_{pp} \end{array}\right)_{N*p}$
$1_N=\left(\begin{array}{c}1 \\ 1\\ \vdots \\1\end{array}\right)_{N*1}$
$x_{i} \in \mathbb{R}^{p},i = 1,2 \cdots N$
样本均值： $\overline{x}_{p*1}=\frac{1}{N}\sum\limits_{i=1}^Nx_i$
样本方差： $S_{p*p}=\frac{1}{N}\sum\limits_{i=1}^N(x_i-\overline{X})(x_i-\overline{X})^T$
为了方便，我们首先将协方差矩阵（数据集）写成中心化的形式：
$\overline{x}_{p*1}=\frac{1}{N}\sum\limits_{i=1}^Nx_i=\frac{1}{N}(x_1,x_2,\cdots,x_N)\left(\begin{array}{c}1 \\ 1\\ \vdots \\1\end{array}\right)_{N*1}=\frac{1}{N}X^T1_N$

$\begin{aligned} S &=\frac{1}{N}\sum\limits_{i=1}^N(x_i-\overline{X})(x_i-\overline{X})^T\\ \\ &=\frac{1}{N}(x_1-\overline{X},x_2-\overline{X},\cdots,x_N-\overline{X})(x_1-\overline{X},x_2-\overline{X},\cdots,x_N-\overline{X})^T\\\\ &=\frac{1}{N}(X^T-\overline{X}1_N^T)(X^T-\overline{X}1_N^T)^T\\\\ &=\frac{1}{N}(X^T-\frac{1}{N}X^T1_N1_N^T)(X^T-\frac{1}{N}X^T1_N1_N^T)^T\\\\ &=\frac{1}{N}X^T(I_N-\frac{1}{N}1_N1_N^T)(I_N-\frac{1}{N}1_N1_N^T)^TX\\ \\ &=\frac{1}{N}X^TH_NH_N^TX\\ \\ &=\frac{1}{N}X^TH_NH_NX\\\\ &=\frac{1}{N}X^THX \end{aligned}$
这个式子利用了中心矩阵 $H$ 的对称性，这也是一个投影矩阵。
定义；中心矩阵centeringmatrix： $H_N=I_N-\frac{1}{N}1_N1_N^T$
$H_N$ 每个样本减去均值，会使图像向中心移动
$\frac { 1 } { N } X ^ { T } H H ^ { T } X$ 中心矩阵 $H_N$ 具有以下性质
$H_N=I_N-\frac{1}{N}1_N1_N^T$

$H_N^T=I_N-\frac{1}{N}1_N1_N^T=H_N$

$\cdot H = ( I _ { N } - \frac { 1 } { N } 1 _ { N } 1 _ { N } ^ { T } ) ( I _ { N } - \frac { 1 } { N } 1 _ { N } 1 _ { N } ^ { T } ) \\ \\ = I _ { N } - \frac { 2 } { N } 1 _ { N } 1 _ { N } ^ { T } + \frac { 1 } { N ^ { 2 } } 1 _ { N } 1 _ { N } ^ { T } 1 _ { N } 1 _ { N } ^ { T } = I _ { N } - \frac { 1 } { N } 1 _ { N } 1 _ { N } ^ { T } = H _ { N }$

所以： $\frac { 1 } { N } X ^ { T } H H ^ { T } X = \frac { 1 } { N } X ^ { T } H X$

1 线性降维-主成分分析 PCA

主成分分析中，我们的基本想法是将所有数据投影到一个字空间中，从而达到降维的目标，为了寻找这个子空间，我们基本想法是：

所有数据在子空间中更为分散
损失的信息最小，即：在补空间的分量少

总结一下就是，一个中心，两个基本点
一个中心：
将一组可能线性相关的变量，通过正交变换变换成一组线性无关的变量（主成分），原始特征空间的重构：相关 $\rightarrow$ 无关
两个基本点：

最大投影方差：即数据足够分散
最小重构距离：从投影返回到原始数据的代价

最大投影方差与最小重构距离是PCA中心思想的两种不同角度，实际上表述的是同一个意思，但方差比较大时，数据才会比较分散，那么重构回去时比较简单；若数据比较集中，甚至比较极端点，数据经过降维后都变成了一个点，基本上是重构不回去的。
在这里插入图片描述

原来的数据很有可能各个维度之间是相关的，于是我们希望找到一组 $p$ 个新的线性无关的单位基 $u_i$ ，降维就是取其中的 $q$ 个基。于是对于一个样本 $x_i$ ，经过这个坐标变换后： $\hat{x_i}=\sum\limits_{i=1}^p(u_i^Tx_i)u_i=\sum\limits_{i=1}^q(u_i^Tx_i)u_i+\sum\limits_{i=q+1}^p(u_i^Tx_i)u_i$

1.1 最大投影方差

方法
1、中心化，每个样本点减去均值 $x_i- \overline{X}$
2、投影，求最大方差
假设投影到 $\mu_{1}$ 上，投影过程为 $\left.\mathbf{(} x_{i}-\bar{X}\right)^{T} \mu_{1} \quad$ $\quad \mu_{1}^{T} \mu_{1}=1$ ，这里假设 $\mu_{1}$ 的模是1
投影后方差为：(因为投影前已经减去了均值，所以这里可以直接平方)
$\begin{aligned} J &=\frac{1}{N} \sum_{i=1}^{N}\left(\left(x_{i}-\bar{X}\right)^{T} \mu_{1}\right)^{2} \\ &=\frac{1}{N} \sum_{i=1}^{N} \mu_{1}^{T}\left(x_{i}-\bar{X}\right)\left(x_{i}-\bar{X}\right)^{T} \mu_{1} \\ &=\mu_{1}^{T}\left(\sum_{i=1}^{N} \frac{1}{N}\left(x_{i}-\bar{X}\right)\left(x_{i}-\bar{X}\right)^{T}\right) \mu_{1} \\ &=\mu_{1}^{T} S \mu_{1} \end{aligned}$
上述问题就是以下的优化问题：
$\mu=\mathop{argmax} \mu_{1}^{T} S \mu_{1}$ $\quad \mu_{1}^{T} \mu_{1}=1$
采用拉格朗日乘值法进行求解：
$\begin{array}{l} L\left(\mu_{1}, \lambda\right)=\mu_{1}^{T} S \mu_{1}+\lambda\left(1-\mu_{1}^{T} \mu_{1}\right) \\ \\ \frac{\partial L}{\partial \mu_{1}}=2 S \mu_{1}-2 \lambda \mu_{1}=0 \\ \\ S \mu_{1}=\lambda \mu_{1} \end{array}$
所以，要求的就是协方差矩阵S的特征向量

上面以一个 $\mu_{1}$ 为例进行介绍的，下面介绍多个单位基的情况。
原来的数据很有可能各个维度之间是相关的，于是我们希望找到一组 $p$ 个新的线性无关的单位基 $u_i$ ，降维就是取其中的 $q$ 个基。于是对于一个样本 $x_i$ ，经过这个坐标变换后： $\hat{x_i}=\sum\limits_{i=1}^p(u_i^Tx_i)u_i=\sum\limits_{i=1}^q(u_i^Tx_i)u_i+\sum\limits_{i=q+1}^p(u_i^Tx_i)u_i$ 对于数据集来说，我们首先将其中心化然后再去上面的式子的第一项，并使用其系数的平方平均作为损失函数并最大化：
$\begin{aligned} J &=\frac{1}{N}\sum\limits_{i=1}^N\sum\limits_{j=1}^q \left(\left(x_{i}-\bar{X}\right)^{T} \mu_{j}\right)^{2} \\ &=\sum\limits_{j=1}^q\mu_{j}^{T} S \mu_{j} \end{aligned}$ $\quad \mu_{j}^{T} \mu_{j}=1$
由于每个基都是线性无关的，于是每一个 $u_j$ 的求解可以分别进行，使用拉格朗日乘子法： $\underset{u_{j}}{\operatorname{argmax}}L(u_j,\lambda)=\underset{u_{j}}{\operatorname{argmax}} u_j^TSu_j+\lambda(1-u_j^Tu_j)$ 于是： $Su_j=\lambda u_j$ 可见，我们需要的基就是协方差矩阵的特征向量。损失函数最大取在本征值前 $q$ 个最大值。

1.2 最小重构代价

对于向量 $x_{i}$ 在 $u_{k}$ 方向的投影值为 $x_{i}^Tu_{k}$ ,投影值和单位向量的乘机为 $x_{i}^Tu_{k})u_{k}$
所以完整的是 $x_{i}=\sum\limits_{k=1}^p(x_{i}^Tu_{k})u_{k}$
为什么使用求和就可以呢，以二维坐标系进行简单说明（见下图）怎么表示向量 $x$ 呢，其实就是下图中x，y轴上的两个向量的加和，其中在x轴上的向量的值实际上就是向量 $x$ 在x轴上的投影在乘上x轴的单位向量，这就是上面式子的原因。

在这里插入图片描述
用PCA进行降维，降维后的维度为q，并且q<p
$\hat{x}_{i}=\sum\limits_{k=1}^q(x_{i}^Tu_{k})u_{k}$
重构代价是：
$\begin{aligned} J &=\frac{1}{N} \sum_{i=1}^{N}\left\|x_{i}-\hat{x}_{i}\right\|^{2} \\ &=\frac{1}{N} \sum_{i=1}^{N}\left\|\sum_{k=q+1}^{p}\left(x_{i}^{T} u_{k}\right) u_{k}\right\|^{2} \\ &=\frac{1}{N} \sum_{i=1}^{N} \sum_{k=q+1}^{p}\left(x_{i}^{T} u_{k}\right)^{2} \end{aligned}$
$x_{i}$ 进行中心化(PCA需要中心化)，重构代价如下：
$\begin{aligned} J &=\frac{1}{N} \sum_{i=1}^{N} \sum_{k=q+1}^{p}\left(\left(x_{i}-\bar{X}\right)^{T} u_{k}\right)^{2} \\ &=\sum_{k=q+1}^{p} \sum_{i=1}^{N} \frac{1}{N}\left(\left(x_{i}-\bar{X}\right)^{T} u_{k}\right)^{2} \\ &=\sum_{k=q+1}^{p} u_{k}^{T} S u_{k} (这里可以写是因为最小投影方差那一样)\\ \text { s.t. } & u_{k}^{T} u_{k}=1 \end{aligned}$ 最小重构代价J： $\begin{aligned} J &=\frac{1}{N} \sum_{i=1}^{N} \sum_{k=q+1}^{p}\left(\left(x_{i}-\bar{X}\right)^{T} u_{k}\right)^{2} \\ &=\sum_{k=q+1}^{p} u_{k}^{T} S u_{k} \\ \text { s.t. } & u_{k}^{T} u_{k}=1 \end{aligned}$
优化问题：
$\underset{u_{j}}{\operatorname{argmax}}L(u_j,\lambda)=\underset{u_{j}}{\operatorname{argmax}}u_j^TSu_j+\lambda(1-u_j^Tu_j)$
损失函数最小取在本征值剩下的个最小的几个值。

最大投影方差与最小重构代价的区别

原先由p维取前q维
最大投影方差目标前q最大
最小重构代价目标后p−q维方差最小

1.3 从SVD 角度看PCA与PCoA

特征值分解
若S为n阶对称阵，则必有正交矩阵G使得
$G^{T}=GKG^{-1} \quad G^{T} G=I \quad K=\left[\begin{array}{cccc} k_{1} & 0 & \dots & 0 \\ 0 & k_{2} & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & k_{p} \end{array}\right] \quad k_{1} \geq k_{2} \geq \dots \geq k_{p}$
其中S是方阵，G是这个矩阵甲的特征向量组成的矩阵，K是一个对角阵，每一个对角线上的元素就是一个特征值。一个矩阵的一组特征向量是一组正交向量。

SVD奇异值分解
在现实的世界中，遇到的大部分矩阵都不是方阵，怎样描述这样普通的矩阵的重要特征？答案是可以使用奇异值分解来解决。
A 是一个N * M的矩阵，那么得到的U是一个N * N的方阵（里面的向量是正交的，称为左奇异向量），Σ是一个N * M的矩阵（除了对角线的元素都是0，对角线上的元素称为奇异值）， $V^T$ 是一个m * m的矩阵（里面的向量也是正交的，称为右奇异向量）
在这里插入图片描述
上面是对下面可能会用到的知识进行简单的介绍。

实际训练时常常使⽤的 SVD 直接求得这q个特征向量。

原始数据为 $X$ ,中心化矩阵 $H=I-\frac{1}{N}1_{N}1_{N}^T$
对数据进行中心化(中心化矩阵可以实现中心化的功能，可见本章节开始) $H X$
对中心化后的数据集进行奇异值分解： $HX=U\Sigma V^T，U^TU=I_N，V^TV=I_p，\Sigma:N\times p$

于是： $S=\frac{1}{N}X^THX=\frac{1}{N}X^TH^THX=\frac{1}{N}V\Sigma^T\Sigma V^T$
因为S是实对称阵，所以： $S=G K G^{T}$
$\quad K=\Sigma^2$

因此，我们直接对中心化后的数据集进行 SVD，就可以得到特征值和特征向量 $V$ ，在新坐标系中的坐标就是： $HX\cdot V$ 由上面的推导，我们也可以得到另一种方法 PCoA 主坐标分析，定义并进行特征值分解： $T=HXX^TH=U\Sigma\Sigma^TU^T$
$T$ 和 $S$ 有相同的特征值

$S$ :特征分解，得到方向(主成分)，然后 $\rightarrow$ 坐标
$T$ :特征分解，直接得到坐标

$T$ 主坐标分析（principle coordinate analysis）PCoA

由于： $HX⋅V=U\Sigma V^TV=U\Sigma$
$TU\Sigma=U\Sigma\Sigma^TU^T⋅U \Sigma=U\Sigma(\Sigma^T\Sigma)$
$U\Sigma$ 为特征向量组成的矩阵， $\Sigma^T\Sigma$ 为特征值矩阵。于是可以直接得到坐标。这两种方法都可以得到主成分，但是由于方差矩阵是 $p\times p$ 的，而 $T$ 是 $N\times N$ 的，所以对样本量较少的时候可以采用 PCoA的方法。

1.4 从概率角度看PCA：p-PCA

下面从概率的角度对 PCA 进行分析，概率方法也叫 p-PCA。我们使用线性模型，类似之前 LDA，我们选定一个方向，对原数据 $x\in\mathbb{R}^p$ ，降维后的数据为 $z\in\mathbb{R}^q,q<p$ 。降维通过一个矩阵变换（投影）进行。设 $z$ 的先验： $\begin{aligned} z & \sim \mathcal{N}\left(\mathbb{O}_{q 1}, \mathbb{I}_{q q}\right) \\ \\ x &=W z+\mu+\varepsilon \\ \\ \varepsilon & \sim \mathcal{N}\left(0, \sigma^{2} \mathbb{I}_{p p}\right) \end{aligned}$
$\sigma^{2} I_{p}=\left[\begin{array}{cccc} \sigma^{2} & 0 & \dots & 0 \\ 0 & \sigma^{2} & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & \sigma^{2} \end{array}\right]$
基于上面的先验，可得 $z, x ∣ z, x . z ∣ x$
线性高斯模型： $A=\left\{\begin{array}{ll} \text {Inference,} & p(z | x) \\ \text {Learing,} & w, \mu, \sigma^{2} \rightarrow E M \end{array}\right.$
在这里插入图片描述
对于 $z$ 的分布如上，那么x的分布就如上图
那么可知 $\left\{\begin{array}{l} z \sim N(0, I) \\ \\ x=w z+\mu+\epsilon \\\\ \epsilon \sim N\left(0, \sigma^{2} I\right) \\ \\ \epsilon \perp z \\ \\ E[x | z]=E[w z+\mu+\epsilon]=w z+\mu \\ \\ \operatorname{Var}[x | z]=\operatorname{Var}[w z+\mu+\epsilon]=\sigma^{2} I \\ \\ x | z \sim N\left(w z+u, \sigma^{2} I\right) \end{array}\right.$
上面的前四个是已知条件，第5,6,7个是根据前面的逐步推出来的。其中第5个式子，因为 $z$ 是先验调条件，因此可以当作常数。
$\begin{array}{l} E[x]=E[w z+\mu+\epsilon]=E[w z+\mu]+E[\epsilon]=\mu \\ \\ \operatorname{Var}[x]=\operatorname{Var}[w z+\mu+\epsilon]=\operatorname{Var}[w z]+\operatorname{Var}[\epsilon]=w I w^{T}+\sigma^{2} I=w w^{T}+\sigma^{2} I \\ \\ x \sim N\left(\mu, w w^{T}+\sigma^{2}\right) \end{array}$
之前的公式：
$x=\left[\begin{array}{l} x_{a} \\ x_{b} \end{array}\right] \quad \mu=\left[\begin{array}{l} \mu_{0} \\ \mu_{1} \end{array}\right] \quad \Sigma=\left[\begin{array}{ll} \Sigma_{a a} & \Sigma_{a b} \\ \Sigma_{b a} & \Sigma_{b b} \end{array}\right]$

$\begin{array}{l} \text { 已知: } x \sim N(\mu, \Sigma) \\ \\ x_{b, a}=x_{b}-\Sigma_{b a} \Sigma_{a a}^{-1} x_{a} \\ \\ \mu_{b . a}=\mu_{b}-\Sigma_{b a} \Sigma_{a a}^{-1} \mu_{a} \\ \\ \Sigma_{b b . a}=\Sigma_{b b}-\Sigma_{b a} \Sigma_{a a}^{-1} \Sigma_{a b} \quad \text { schur complementary } \\ \\ x_{b}=x_{b . a}+\Sigma_{b a} \Sigma_{a a}^{-1} x_{a} \\ \\ E\left[x_{b} | x_{a}\right]=\mu_{b . a}+\Sigma_{b a} \Sigma_{a a}^{-1} x_{a} \\ \\ V a r\left[x_{b} | x_{a}\right]=V a r\left[x_{b . a}\right]=\Sigma_{b b . a} \\ \\ x_{b} | x_{a} \sim N\left(\mu_{b . a}+\Sigma_{b a} \Sigma_{a a}^{-1} x_{a}, \Sigma_{b b . a}\right) \end{array}$

推导：
$\begin{array}{l}{\left[\begin{array}{l}x \\ z\end{array}\right] \sim\left(\left[\begin{array}{l}\mu \\ 0\end{array}\right]\left[\begin{array}{cc}0 & \Delta \\ \Delta^{T} & I\end{array}\right]\right)}\end{array}$
$\begin{array}{l}\Delta=\operatorname{Cov}(x, z) \\ \\ =E[(x-\mu)(z-0)^T] \\ \\ =E\left[(x-\mu) z^{T}\right] \\ \\ =E\left[(w z+\epsilon)z^{T}\right] \\ \\=E\left[w z z^{T}+\epsilon z^{T}\right] \\ \\ =w E\left[z z^{T}\right]+E[\epsilon] \cdot E\left[z^{T}\right] \\ \\ =w \cdot I+0 \\ \\ =w\end{array}$
上面的 $E\left[z z^{T}\right]$ 可以看作求方差，因为 $z$ 的均值是0
$\begin{array}{l} {\left[\begin{array}{l} x \\ z \end{array}\right] \sim\left(\left[\begin{array}{l} \mu \\ 0 \end{array}\right]\left[\begin{array}{cc} O & \Delta \\ \Delta^{T} & I \end{array}\right]\right)=\left(\left[\begin{array}{l} \mu \\ 0 \end{array}\right]\left[\begin{array}{ll} w w^{T}+\sigma^{2} I & w \\ w^{T} & I \end{array}\right]\right)}\end{array}$
联合概率
$\begin{array}{l}{\left[\begin{array}{l} x \\ z \end{array}\right] \sim N(\hat{\mu}, \hat{\Sigma})} \end{array}$
对于这个模型，我么可以使用期望-最大（EM）的算法进行学习，在进行推断的时候需要求得 $p (z ∣ x)$ ，推断的求解过程和线性高斯模型类似。 $\begin{array}{c} p(z | x)=\frac{p(x | z) p(z)}{p(x)} \\ \\ \mathbb{E}[x]=\mathbb{E}[W z+\mu+\varepsilon]=\mu \\ \\ \operatorname{Var}[x]=W W^{T}+\sigma^{2} \mathbb{I}_{p p} \\ \\ \Longrightarrow p(z | x)=\mathcal{N}\left(W^{T}\left(W W^{T}+\sigma^{2} \mathbb{I}\right)^{-1}(x-\mu), \mathbb{I}-W^{T}\left(W W^{T}+\sigma^{2} \mathbb{I}\right)^{-1} W\right) \end{array}$

小结

降维是解决维度灾难和过拟合的重要方法，除了直接的特征选择外，我们还可以采用算法的途径对特征进行筛选，线性的降维方法以 PCA 为代表，在 PCA 中，我们只要直接对数据矩阵进行中心化然后求奇异值分解或者对数据的协方差矩阵进行分解就可以得到其主要维度。非线性学习的方法如流形学习将投影面从平面改为超曲面。