PCA、SVD和LDA

最新推荐文章于 2022-05-04 20:00:00 发布

ErinLiu虎哥的铲屎员

最新推荐文章于 2022-05-04 20:00:00 发布

阅读量736

点赞数

分类专栏：机器学习算法文章标签：机器学习算法

本文链接：https://blog.csdn.net/liuerin/article/details/94732413

版权

机器学习算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

原始数据有时有高维特征向量，可能包含很多冗余和噪声。通过降维寻找数据内部的特性，提升特征的表达能力，降低训练复杂度。

1.PCA，主成分分析

PCA,principal components analysis，是一种线性、非监督、全局的降维算法。
在高维空间中，用原有坐标系表示的数据，可能有线性相关的关系；如果变换坐标轴，变换后能用更少的基向量去表示数据，去除线性相关的维度。这样就可以将源数据降维。
如图：原二维空间中，数据中有线性关系；而将坐标系变换到右图后，横坐标更能表示样本的数据，纵坐标作用几乎消失。

主成分：通过正交变换，将一组可能存在相关性的变量变换为一组线性不相关的变量，变换后的这组变量叫主成分。

1.1 方差最大原理

推导

设样本点集 $D={x_i,\cdots,x_m},x_i\in R^n$ ，其中样本经过中心化即 $x_i = x_i-\mu$ 。目前样本点由n个正交基 $[1,0,\cdots,0]^T,[0,1,\cdots,0]^T,\cdots,[0,0,\cdots,1]^T$ 表示。我们想要将坐标轴变换后由k个正交基 $w_i,\cdots,w_k$ 表示， $w_i^Tw_i=1,w_i^Tw_j=0$ 。
为何原数据n维能由k维表示？

我们把正交基 $w$ 想象成一个向量，样本 $x_i$ 在这个轴上的取值，就等于样本在向量上的投影 $x_i^Tw$ 。

在信号处理领域，认为信号具有较大方差，噪声具有较小方差，信号与噪声比成为信噪比。信噪比越大，信号质量越好。同样的，如果在变换后的轴 $w$ 上，样本的投影方差越大，这个轴对数据的表示越好。

如果样本在某个轴上投影后取值方差小，就代表这个轴上的取值对数据的表达不够好。这个轴上的取值就可以被抛弃。
$\begin{aligned} \mu^\prime &= \frac{1}{m}\sum x_i^Tw = (\frac{1}{m}\sum x_i^T)w = 0\\ D(x) &= \frac{1}{m}\sum(x_i^Tw - \mu^\prime)^2 = \frac{1}{m}\sum(x_i^Tw)^2 \\ &= w^T \Big( \frac{1}{m} \sum x_ix_i^T\Big)w \\ & = w^T \Sigma w \\ &=tr(w^T XX^Tw) \end{aligned}$
这时需要求解
$\begin{cases} \max \quad & w^T\Sigma w \\s.t. \quad & w^Tw=1 \end{cases}$
拉格朗日函数
$\begin{aligned} L &= w^T\Sigma w + \lambda(1-w^Tw) \\ \frac{\partial L}{\partial w} &= 2\Sigma w -2\lambda w=0 \end{aligned}$
得到 $\Sigma w= \lambda w$ （即 $w,\lambda$ 分别是 $\Sigma$ 矩阵的特征向量和特征值），代入 $w^T\Sigma w$ 中得到
$\lambda$
因此想要映射方差最大，取最大的特征值 $\lambda$ 即可
2. 总结
获取数据后

对样本数据中心化处理
计算协方差矩阵(两两特征之间的斜方差)
计算协方差矩阵的特征值、特征向量（eigenvalues, eigenvectors)，将特征值和对应的特征向量按照特征值的大小排序
对特征值前k大的特征向量 $w_1,w_2,\cdots,w_k$ ，通过以下映射将n维样本映射到d维(即生成一个矩阵 $W=[w_1,w_2,\cdots,w_k]^T_{k\times n}$ ,对样本 $W x$ 变换)
$x^ \prime = \begin{bmatrix} w_1^T x_i \\ w_2^T x_i \\ \vdots \\w_k^T x_i \end{bmatrix}$

（由于协方差矩阵是对称矩阵，线代中定理可得，一定能找到矩阵使对称矩阵对角化 $P^{-1}AP =\Lambda$ ，其中 $\Lambda$ 对角线上数据是矩阵A的特征值，而P矩阵的列向量就是A的特征向量，并且如果 $\lambda$ 值不同，对应的特征向量之间正交）

降维后的信息占比定义为
$\eta = \sqrt \frac{\sum^k\lambda_i^2}{\sum^n\lambda_i^2}$

1.2 最小平方误差角度

PCA求解的其实是最佳投影方向，也就是一条直线，可以用线性回归的角度解释。
以二维空间为例，找到一条直线，使所有的样本点到直线投影点的距离和最小。

在 $R^n$ 高维空间中，要找到一个k维的超平面，使数据点到超平面的距离平方和最小。

设k维超平面的标准正交基 $W=\{ w_1,\cdots,w_k \}$ 。
样本 $x$ 在超平面上的投影向量为 $\tilde x$ ；
投影向量可以表示为 $\tilde x = \sum_{i=0}^k(w_i^Tx)w_i$
其中 $w_i^Tx$ 是样本在 $w_i$ 方向的投影长度。

要想使原样本点到投影点的距离之和最小
$\begin{aligned} \arg &\min_{w_1,\cdots,w_k} \sum||x -\tilde x||_2^2 \\ s.t. &\quad w_i^Tw_j = \delta_{ij} = \begin{cases}1 ,&i=j \\ 0,&i \quad\neq j\end{cases} \end{aligned}$
展开 $\tilde x||_2^2$
$\begin{aligned} ||x - \tilde x||_2^2 &= x^Tx + \tilde x^T\tilde x -2x^T\tilde x \\ x^T\tilde x &= x^T\sum_{i=0}^k(w_i^Tx)w_i = \sum_{i=0}^k(w_i^Tx)x^Tw_i = \sum_{i=0}^kw_i^Txx^Tw_i \\ \tilde x^T\tilde x &= \sum_{i=0}^k(w_i^Tx)w_i^T\sum_{j=0}^k(w_j^Tx)w_j = \sum_{i=0}^k\sum_{j=0}^k(w_i^Tx)(w_j^Tx)w_i^Tw_j \\ &= \sum_{i=0}^k (w_i^Tx)(w_i^Tx)w_i^T w_i \\ &= \sum_{i=0}^k w_i^Tx x^Tw_iw_i^T w_i = \sum_{i=0}^kw_i^Txx^Tw_i \\ ||x - \tilde x||_2^2 &= -\sum_{i=0}^kw_i^Txx^Tw_i + constant \\ \sum||x -\tilde x||_2^2 &= - \sum_{i=0}^k w_i^T\Big( \sum_{m=1}x_mx_m^T\Big)w_i = m \sum_{i=0}^k w_i^T\Sigma w_i \end{aligned}$
目标函数转化为
$\begin{aligned} \arg&\max_{w_1,w_2,\cdots,w_k} \sum_{i=0}^k w_i^T\Sigma w_i \\ s.t.& \quad w_i^Tw_i=1,\quad i=1,2,\cdots,k \end{aligned}$
拉格朗日函数
$\begin{aligned} L &= \sum_{i=0}^k w_i^T\Sigma w_i+ \sum_{i=1}^k \lambda_i (1-w_i^Tw_i) \\ \end{aligned}$
此时对每个基向量求导与最大方差理论等价

1.3 总结

PCA是一种线性降维方法，虽然经典，但有一定局限性。可以通过核映射对PCA进行扩展，得到核主成分分析(KPCA)；或流行映射的降维方法，比如等距映射、局部线性嵌入、拉普拉斯特征映射等。对一些PCA效果不好的复杂数据集进行非线性降维操作。

2.SVD（奇异值分解）

SVD奇异值分解等价于PCA主成分分析。核心都是求解 $X^TX$ 的特征值及对应的特征向量。

SVD原理。
$X$ 是样本数据，将其分解为以下表达式
$X=U\Sigma V^T$
维度表示如下：

其中，

U是 $m\times m$ 维矩阵，且 $U^TU=I,U^T=U^{-1}$ 。
$\Sigma$ 是 $m\times n$ ，除了主对角线上的元素以外全部为0
V是 $\times n$ 维矩阵，且 $V^TV=I,V^T=V^{-1}$ 。
最终X是 $m\times n$ 维。
可以限制 $\Sigma$ 的维度。

求解
$X=U\Sigma V^T$

求解 $U$
$\begin{aligned} XX^T &= U\Sigma V^TV\Sigma^T U^T=U_{m\times m}\Sigma_{m\times n}\Sigma^T_{n\times m}U^T_{m\times m} \\ \end{aligned}$
其中 $\Sigma_{m\times n}\Sigma^T_{n\times m}$ 是 $m\times m$ ，只有左上角 $n\times n$ 的对角线上有数据，其他元素都是0.
相当于求解 $XX^T$ 的特征值和特征向量。
求解 $V$
$\begin{aligned} X^TX &= V\Sigma^T U^TU\Sigma V^T=V_{n\times n}\Sigma^T_{n\times m}\Sigma_{m\times n}V^T_{n\times n} \\ \end{aligned}$
其中 $\Sigma^T_{n\times m}\Sigma_{m\times n}$ 是 $n\times n$ ，只有对角线上有数据，其他元素都是0.
相当于求解 $X^TX$ 的特征值和特征向量。
求解 $\Sigma$
$\begin{aligned} X&= U\Sigma V^T \\ XV_{n\times n} &= U\Sigma V^TV=U_{m\times m}\Sigma_{m\times n}\\ X_{m \times n}v_{i_{n\times 1}}&= \sigma_iu_{i_{m\times 1}} \\ \sigma_i &= Xv_i/u_i \end{aligned}$
其实由求解 $U, V$ 的过程可以得到， $\sigma_i = \sqrt{\lambda_i}$

SVD性质

将奇异值矩阵 $\Sigma$ 中按照 $\sigma_i$ 大小排列，奇异值减少特别的快。在很多情况下，前10% 甚至1%的奇异值就占了全部奇异值之和的99%以上。
可以利用最大k个奇异值和对应的左右奇异向量来描述矩阵。
$A_{m\times n} = U_{m\times m} \Sigma_{m \times n} V^T_{n \times n} \approx U_{m\times k}\Sigma_{k \times k}V^T_{k \times n}$
k比n小很多。
SVD中压缩分为两部分
- U代表对样本维数做压缩，这部分可以用于计算PCA（PCA 计算依赖于斜方差矩阵，很耗资源）
- V代表对样本数目做压缩。 $X_{d\times n} = U^T_{d\times m}X_{m\times n}$
SVD的左奇异矩阵可以用来计算PCA。

3.LDA,线性判别分析

LDA（linear discriminant analysis），是一种有监督学习算法，常用来对数据进行降维。

PCA中，算法不考虑数据的标签，把原始数据映射到一些所有数据间方差较大的方向
LDA中，考虑到类别的不同，希望不同类别间所有区分，同类别尽量相同。即最大化类间距离，最小化类内距离。

例如下图，如果是PCA算法，应该将数据映射到y轴;但由于数据是有标签的，映射到x轴是较好的选择，不同类别间能够有所区分。

3.1 二分类情况

数据集D， $y_i \in \{0,1\}$ ，两个类别的样本子集为 $C_0,C_1$ 。令 $X_i,\mu_i,\Sigma_i$ 分别表示第 $\in \{0,1\}$ 类的集合，均值向量，协方差矩阵。

如果将两个类别数据投影到 $w$ 方向上：

我们希望最大化类间距离。
类间距离定义为，两个类别投影后均值的距离
$||\tilde \mu_0 - \tilde \mu_1||_2^2$
其中 $\tilde \mu_1 = w^T\mu_1,\mu_1 = \frac{1}{N_1}\sum_{x \in C_1} x$ 。优化目标为
$\begin{aligned} \max_w&\quad ||w^T(\mu_0-\mu_1)||_2^2 \\ s.t. &\quad w^Tw =1 \end{aligned}$
最小化类内距离。
类内距离即每个类别的方差。最小化两个类别的方差之和。
$D_0 + D_1$
其中
$\begin{aligned} D_1 & = \frac{1}{N_1-1}\sum_{x \in C_1}(x^\prime - \mu_1^\prime)^2\\ & = \frac{1}{N_1-1}\sum(w^Tx - w^T\mu_1)^2\\ &= w^T\Big(\frac{1}{N_1-1}\sum (x-\mu_1)(x^T-\mu_1^T)\Big)w \\ &= w^T\Sigma_1 w\\ \end{aligned}$
优化目标
$\min \quad w^T (\Sigma_0 + \Sigma_1)w$
最大化类间距离，最大化类内距离，得到
$\begin{aligned} \max \quad J &= \frac{||w^T(\mu_0 - \mu_1)||^2}{\quad w^T(\Sigma_0+\Sigma_1)w} \\ &= \frac{w^T(\mu_0 - \mu_1)(\mu_0 - \mu_1)^Tw}{\quad w^T(\Sigma_0+\Sigma_1)w} \end{aligned}$
定义
$\begin{aligned} S_b &= (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T \\ S_w &= \Sigma_0+\Sigma_1 \\ &= \sum_{x \in X_0} (x-\mu_0)(x-\mu_0)^T + \sum_{x \in X_1} (x-\mu_1)(x-\mu_1)^T \\ \end{aligned}$
其中 $S_w$ 为类内散度， $S_b$ 为类间散度。变换目标函数：
$J=\frac{w^T S_b w}{w^T S_w w}$
求解
其中如果 $w$ 是一个解，那么 $\alpha w$ 也是解。令 $w^T S_w w=1$ .上式等价于
$\begin{aligned} \min_w &\quad -w^T S_b w\\ s.t. &\quad w^T S_w w=1 \end{aligned}$
令
$\begin{aligned} L &= -w^T S_b w - \lambda(1-w^T S_w w )\\ \frac{\partial L}{\partial w} &= -( S_b w + S_b^T w) +\lambda(S_w w + S_w^T w)\\ &= -2(S_b w - \lambda S_w w) = 0 \\ \end{aligned}$
得到
$S_b w = \lambda S_w w$
由于
$S_b w = (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T_{1\times n} w_{n \times 1} = (\mu_0 - \mu_1)\cdot \text{某实数}$
因此代入 $S_b w = \lambda S_w w$ ,得到
$\begin{aligned} (\mu_0 - \mu_1) &= S_w w \\ w &= S_w^{-1}(\mu_0 - \mu_1) \end{aligned}$

在实践中，对 $S_w$ 奇异值分解，得到 $S_w = U\Sigma V^T$ ，然后 $S_w^{-1} = V \Sigma^{-1}U^T$ 。

3.2 多分类问题

假设存在N分类，第i类样本数目为 $m_i$ 。最终将特征降至d维。需要找到一个d维的超平面 $W=\{w_1,w_2,\cdots,w_d\}$

类内散度矩阵
$\begin{aligned} S_w & = \sum_{i=1}^N S_{wi} \\ S_{wi} &= \sum_{x\in C_i} (x-\mu_i)(x-\mu_i)^T \end{aligned}$
定义全局散度矩阵
$\begin{aligned} S_t &= S_b + S_w \\ & = \sum_{j=1}^m (x_j - \mu)(x_j - \mu)^T \end{aligned}$
其中 $\mu$ 是所有样本的均值向量
得到 $S_b$
$\begin{aligned} S_b &= S_t - S_w \\ & = \sum_{j=1}^m (x_j - \mu)(x_j - \mu)^T - \sum_{i=1}^N \sum_{x\in X_i} (x-\mu_i)(x-\mu_i)^T\\ &= \sum_{i=1}^N \sum_{x_j\in X_i}[(x_j - \mu)(x_j - \mu)^T - (x-\mu_i)(x-\mu_i)^T]\\ &= \sum_{i=1}^N \sum_{x_j\in X_i}[x_jx_j^T - x_j\mu^T-\mu x_j^T +\mu\mu^T - (x_jx_j^T - x_j\mu_i^T-\mu_i x_j^T +\mu_i\mu_i^T)]\\ &= \sum_{i=1}^N m_i\frac{1}{m_i}\sum_{x_j\in X_i}[ - x_j\mu^T-\mu x_j^T +\mu\mu^T + x_j\mu_i^T+\mu_i x_j^T -\mu_i\mu_i^T)] \\ &=\sum_{i=1}^N m_i\Big[- \mu_i\mu^T - \mu \mu_i^T + \mu\mu^T + \mu_i\mu_i^T \Big] \\ &= \sum_{i=1}^N m_i(\mu_i-\mu)(\mu_i - \mu)^T \end{aligned}1$
此时优化目标
$\begin{aligned} \max_w &\quad \frac{tr(W^T S_b W)}{tr(W^T S_w W)}\\ s.t.&\quad W^TW=I \end{aligned}$
最终
$S_bw = \lambda S_ww$
即求解 $S_w^{-1}S_b$ 矩阵特征值的前d大对应的特征向量组成的矩阵。

3.3 总结

计算数据集每个类别样本的均值向量 $\mu_j$ ，及总体的均值 $\mu$
计算类内散度矩阵 $S_w$ ，全局散度矩阵 $S_t$ ，得到类间散度矩阵 $S_b = S_t-S_w$
对矩阵 $S_wS_b$ 进行特征值分解，将特征值从大到小排列
取特征值前d大的对应特征向量 $w_1,w_2,\cdots,w_d$ ,通过以下映射将n维样本映射到d维 $x^\prime = \begin{bmatrix}w_1^Tx \\ w_2^Tx\\ \vdots \\ w_d^Tx\end{bmatrix}$