主成分分析（PCA）之去相关思路

最新推荐文章于 2022-07-11 10:40:39 发布

-倾城之恋-

最新推荐文章于 2022-07-11 10:40:39 发布

阅读量1.9k

点赞数

分类专栏：矩阵机器学习统计

本文链接：https://blog.csdn.net/P081513083/article/details/104389658

版权

机器学习同时被 3 个专栏收录

37 篇文章 0 订阅

订阅专栏

统计

23 篇文章 0 订阅

订阅专栏

矩阵

4 篇文章 0 订阅

订阅专栏

预备知识

1、 $\boldsymbol x\in\R^{d\times 1}$ 为随机变量， $\boldsymbol x=[x^1,x^2,...,x^d]^T$ ， $E[\boldsymbol x]=\boldsymbol 0$ ，
协方差：
$Var[\boldsymbol x] = \begin{bmatrix} cov(x^{1},x^{1}) & cov(x^{1},x^{2}) &...&cov(x^{1},x^{d})\\ cov(x^{2},x^{1}) & cov(x^{2},x^{2}) &...&cov(x^{2},x^{d}) \\ cov(x^{d},x^{1}) & cov(x^{d},x^{2}) &...&cov(x^{d},x^{d}) \end{bmatrix}=E \begin{bmatrix} x^{1}x^{1} & x^{1}x^{2} &...&x^{1}x^{d}\\ x^{2}x^{1} & x^{2}x^{2} &...&x^{2}x^{d} \\ x^{d}x^{1} & x^{d}x^{2} &...&x^{d}x^{d} \end{bmatrix} =E[\boldsymbol x\boldsymbol x^T]\\ =\frac{1}{n}\sum\limits_{i=1}^n(\boldsymbol x_i\boldsymbol x_i^T) =[\boldsymbol x_1,\boldsymbol x_2,...\boldsymbol x_n][\boldsymbol x_1,\boldsymbol x_2,...\boldsymbol x_n]^T =XX^T$ 。
2、 $\boldsymbol c$ 为常数，则 $Var[\boldsymbol x+\boldsymbol c]=Var[\boldsymbol x]$ 。
推论： $Var[\boldsymbol x-E[\boldsymbol x]]=Var[\boldsymbol x]$ 。
3、 $\boldsymbol z=W \boldsymbol x$ , 则：
$Var[\boldsymbol z]=WVar[\boldsymbol x]W^T$ 。

问题：

假设存在样本集 $\{\boldsymbol x_i\}_{i=1}^n$ ， $\boldsymbol x_i\in\R^{d\times 1}$ ，我们想对 $\{\boldsymbol x_i\}_{i=1}^n$ 进行降维表示，并保留 $\{\boldsymbol x_i\}_{i=1}^n$ 的主要信息。

思路：

去相关方法的直观思路，如果存在高度相关的维度，则只取其中一个即可。由于变量 $\boldsymbol x$ 的平移不影响变量 $\boldsymbol x$ 的协方差，因此假设我们已经将 $\{\boldsymbol x_i\}_{i=1}^n$ 中心化，即所有样本已经减去其均值，则 $E[\boldsymbol x]=\boldsymbol 0$ 。

但是计算完 $\boldsymbol x_i$ 的协方差矩阵 $Var[\boldsymbol x]=XX^T$ ，可以看到相关性非常复杂，很难判断去掉哪一个维度。可以想象，理想情况下，如果协方差矩阵是对角矩阵，则各个维度都不相关，此时方差比较大的维度包含了更多的信息（变化），然后留下方差大的维度即可。

因此可以考虑旋转坐标系，使得数据在新坐标系下，各个坐标轴变量不相关（几何解释就是，已知一个坐标变量，其它坐标变量完全不可预测，呈随机分布）。因此相当于找一个新的规范正交基，使得数据在新规范正交基上的表示（分解，投影），各个维度之间不相关。
因此可以考虑找到一个可逆变换 $W\in\R^{d\times d}$ （或者说是规范正交基），使得
$\boldsymbol z=W\boldsymbol x$
的协方差矩阵 $Var[\boldsymbol z]$ 为对角矩阵。则
$Var[\boldsymbol z]= WVar[\boldsymbol x]W^T=WXX^T W^T$

则现在问题变为是否存在可逆变换 $W\in\R^{d\times d}$ 使得 $XX^T$ 可以被对角化。

由于 $XX^T$ 是对称矩阵，因此一定存在可逆变换 $P$ 使得 $XX^T$ 可以被对角化为 $\Lambda$ ( $z$ 的协方差矩阵)[矩阵简明教程，p28]:
$\Lambda=P^{-1}XX^TP$
且 $P$ 为 $XX^T$ 的 $d$ 个线性无关特征列向量组成的矩阵。当特征列向量取正交特征向量时有 $P^TP=I$ ， $P^{-1}=P^T$ 。
因此有 $\Lambda =P^TXX^TP$
则 $W=P^T$ 。
因此需要求得 $XX^T$ 的 $d$ 个特征值，以及对应的 $d$ 个正交特征向量即可得到 $W$ 。

需要注意的是这样的新坐标系或者说基 $W$ 有很多个，其中一个原因是由于基向量的顺序早成的，另外是由于不变子空间基可以任意取造成，还有一个原因是每个基向量，可以被其反方向替代。

而我们只关注信息量比较大的坐标轴或者基向量，也就是找方差比较大的坐标轴来表示原数据。而方差比较小的坐标轴，由于数据在其投影均值为0，因此可以舍弃。这样我们就完成了对原数据的降维近似表示。如果需要进一步压缩，比如用少量的 $k$ 个坐标轴也描述原数据，也就是保留 $k$ 个主成分，则取前 $k$ 大的特征值（方差）对应的正交特征向量（坐标轴，单位基）组成 $P'=[\boldsymbol p_1, \boldsymbol p_2,...,\boldsymbol p_k]$ 。
$W'=P'T\in\R^{k\times d}$ 。降维后 $\boldsymbol z'=W'x$ 。

注意：
从上述过程实际可以看出，PCA过程实际蕴含了 $X^T$ (或 $X$ )的奇异值分解过程， $P$ 就是 $X^T$ (或 $X$ )的右(或左)奇异特征向量。
对 $X^T$ 奇异值分解可以得到（任意矩阵（秩大于0）都可以进行奇异值分解）:
$X^T=UDV^T$
其中 $UU^T=I\in\R^{n\times n}$ ， $VV^T=I\in\R^{d\times d}$ 。假设 $(X^T)^TX^T\in\R^{d\times d}$ 的 $d$ 个特征向量为 $\{\lambda_1\geq \lambda_2\geq ...\geq \lambda_d\geq 0\}$ ，则 $X^T\in\R^{d\times n}$ 的 $d$ 个奇异值为 $\{\sqrt\lambda_1\geq \sqrt\lambda_2\geq ...\geq \sqrt\lambda_d\geq 0\}$ ，(默认 $d < n$ ，如果 $d > n$ ，则 $X^T\in\R^{d\times n}$ 的 $n$ 个奇异值为 $\{\sqrt\lambda_1\geq \sqrt\lambda_2\geq ...\geq \sqrt\lambda_n\geq 0\}$ )。则 $\Lambda=Diag(\lambda_1,\lambda_2, ..., \lambda_d)$ ， $D=Diag(\sqrt\lambda_1,\sqrt\lambda_2, ..., \sqrt\lambda_d)。$
且 $P = V$ 。可以看到 $XX^T=VD^TU^TUDV^T=VD^2V^T=V\Lambda V^T。$

-倾城之恋-

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
主成分分析（PCA）之去相关思路

预备知识1、x∈Rd×1\boldsymbol x\in\R^{d\times 1}x∈Rd×1为随机变量，x=[x1,x2,...,xd]T\boldsymbol x=[x^1,x^2,...,x^d]^Tx=[x1,x2,...,xd]T，E[x]=0E[\boldsymbol x]=\boldsymbol 0E[x]=0，协方差：Var[x]=[cov(x1,x1)cov(x1,x2)...
复制链接

扫一扫

专栏目录