SVD+PCA+LDA+LSA/LSI+NMF

最新推荐文章于 2022-07-27 14:02:26 发布

linxid

最新推荐文章于 2022-07-27 14:02:26 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签： PCA SVD LDA LSI

本文链接：https://blog.csdn.net/linxid/article/details/86613719

版权

26 篇文章 6 订阅

订阅专栏

由特征值和特征向量的??=??关系，我们可以得出：
$\lambda x$
$A$ : $n\times n$ 的实对称矩阵; $\lambda:$ 特征值； $x$ ：特征向量

求出特征值和特征向量我们可以对矩阵进行分解。

假设矩阵A的?个特征值 $\lambda_1 ≤ \lambda_2 ≤ ...≤\lambda_n$ ，以及这?个特征值所对应的特征向量 ${w_1,w_2,...w_n\}$ ，如果这?个特征向量线性无关，那么矩阵 $A$ 可以分解为：
$A=W\sum W^{-1}$

$W$ ：?个特征向量所张成的?×?维矩阵；
$\sum$ ：n个特征值为主对角线的?×?维矩阵；

标准化后： $w_i||^2=1$ ，可以得出： $W^{-1} = W^T$ ， $A=W\sum W^{T}$

使用SVD可以对任意矩阵进行分解，而不要求方阵。
$m\times n$ 的矩阵A的SVD定义为：
$U\sum V^T$

右奇异矩阵：
$(A^TA)v_i=\lambda v_i$
所有特征向量 $v_i$ 张成一个 $n\times n$ 的矩阵 $V$ ，即我们SVD中的 $V$
左奇异矩阵：
$(A^TA)u_i=\lambda u_i$
所有特征向量 $u_i$ 张成一个 $n\times n$ 的矩阵 $U$ ，即我们SVD中的 $U$
奇异矩阵：
$\Sigma V^{T} \Rightarrow A V=U \Sigma V^{T} V \Rightarrow A V=U \Sigma \Rightarrow A v_{i}=\sigma_{i} u_{i} \Rightarrow \sigma_{i}=A v_{i} / u_{i}$
由上述公式便可求出奇异值和奇异矩阵。
为什么 $A^TA$ 的特征向量组成SVD中的 $V$ 矩阵：
$\Sigma V^{T} \Rightarrow A^{T}=V \Sigma^{T} U^{T} \Rightarrow A^{T} A=V \Sigma^{T} U^{T} U \Sigma V^{T}=V \Sigma^{2} V^{T}$
由上述可以得出矩阵A的奇异值和 $A^TA$ 的特征值满足下列关系：
$\sigma_i = \sqrt{\lambda_i}$
详细推导见[9]。

PCA的目标：最大化投影方差。信号具有较大方差，噪声具有较小方差，信号与噪声之比称为信噪比。信噪比越大意味着数据的质量越好，反之，信噪比越小意味着数据的质量越差
内积与投影： $\cdot B=|A||B| \cos (\alpha)$
方差： $\operatorname{Var}(a)=\frac{1}{m} \sum_{i=1}^{m}\left(a_{i}-\mu\right)^{2}$
协方差：
$Y)=\mathrm{E}[(X-\mathrm{E}[X])(Y-\mathrm{E}[Y])] = \frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-E(X)\right)\left(y_{i}-E(Y)\right) =\frac{1}{m} X X^{\mathrm{T}}$
矩阵求导： $\frac{\partial A^{\top} A}{\partial A}=A$

以下从最大化投影方差角度来讲解如何实现PCA，设数据点为 $\left\{v_{1}, v_{2}, \ldots, v_{n}\right\}$ ，所有向量为列向量

去中心化： $\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \ldots, \boldsymbol{x}_{n}\right\}=\left\{\boldsymbol{v}_{1}-\boldsymbol{\mu}, \boldsymbol{v}_{2}-\boldsymbol{\mu}, \ldots, \boldsymbol{v}_{n}-\boldsymbol{\mu}\right\}$ ，去中心化的目的是为了使得投影后的数据均值为0；
求投影方差： $D(\boldsymbol{x})=\frac{1}{n} \sum_{i=1}^{n}\left(\boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{\omega}\right)^{2} = \omega^{\mathrm{T}}\left(\frac{1}{n} \sum_{i=1}^{n} \boldsymbol{x}_{i} \boldsymbol{x}_{i}^{\mathrm{T}}\right) \boldsymbol{\omega}$
样本协方差矩阵： $C=\sum_{i=1}^{n} \boldsymbol{x}_{i} \boldsymbol{x}_{i}^{\mathrm{T}}$ ，投影后的方差即协方差矩阵的特征值；
协方差矩阵进行特征值分解 $(\lambda_1, \lambda_2,...\lambda_n)$ ，并求解对应的特征向量 $e_1, e_2,...e_n)$ ;
特征向量按对应特征值大小从上到下按行排列成矩阵，取前 $d$ 行组成矩阵P;
$Y = P X$ 即为降维到 $d$ 维后的数据;
降维后的信息占比: $\sqrt{\sum^{d}_{i=1}{\lambda_i^2}/\sum^{n}_{i=1}{\lambda_i^2}}$

LDA的主要思想是：最大化类间距离，最小化类内距离；
二分类样本，两类是 $C_1, C_2$ , 均值分别为 $\mu_1=\frac{1}{N_{1}} \sum_{x \in C_{1}} x, \mu_2=\frac{1}{N_{2}} \sum_{x \in C_{2}} x$

投影后类间距离： $2)=\left\|\widetilde{\mu}_{1}-\widetilde{\mu}_{2}\right\|_{2}^{2}=\left\|w^{T}\left(\mu_{1}-\mu_{2}\right)\right\|_{2}^{2}$
优化目标(最大化类间方差)： $\max _{\omega}\left\|\omega^{\mathrm{T}}\left(\mu_{1}-\mu_{2}\right)\right\|_{2}^{2} ;s.t.\omega^{\mathrm{T}} \omega=1$
最小化投影后类内方差： $D_{1}=\sum_{x \in C_{1}}\left({\omega}^{\mathrm{T}}{x}-{\omega}^{\mathrm{T}} \boldsymbol{\mu}_{1}\right)^{2}=\sum_{{x} \in \mathcal{C}_{1}} {\omega}^{\mathrm{T}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{1}\right)\left({x}-{\mu}_{1}\right)^{\mathrm{T}}{\omega}$ ， $D_{2}$ 有同样的结果；
综合目标： $J(\omega)=\frac{\omega^{\mathrm{T}}\left(\mu_{1}-\mu_{2}\right)\left(\mu_{1}-\mu_{2}\right)^{\mathrm{T}} \omega}{\sum_{x \in C_{i}} \omega^{\mathrm{T}}\left(x-\mu_{i}\right)\left(x-\mu_{i}\right)^{\mathrm{T}} \omega}$
对其求导令其为0： $\frac{\partial J(\omega)}{\partial \omega}=\frac{\left(\frac{\partial \omega^{\mathrm{T}} S_{B} \omega}{\partial \omega} \omega^{\mathrm{T}} S_{w} \omega-\frac{\partial \omega^{\mathrm{T}} S_{w} \omega}{\partial \omega} \omega^{\mathrm{T}} S_{B} \omega\right)}{\left(\omega^{\mathrm{T}} S_{w} \omega\right)^{2}}=0$
最佳投影方向： $J_{\omega}=S_{w}^{-1}\left(\mu_{1}-\mu_{2}\right)$

算法假设：
LDA算法的实现对数据分布做了很多强假设：

实际训练过程中，由于test是没有标签的所以我们不能对test做同样的LDA操作，也就无法使用。