PCA为什么要用协方差矩阵？

最新推荐文章于 2025-03-29 23:14:31 发布

babywong

最新推荐文章于 2025-03-29 23:14:31 发布

阅读量1.9w

点赞数 44

分类专栏：算法文章标签： PCA SVD 协方差矩阵坐标转换

本文链接：https://blog.csdn.net/babywong/article/details/50085239

版权

算法专栏收录该内容

4 篇文章

订阅专栏

PCA方法是数据降维的重要手段之一，方法比较简单，就是将样本数据求一个维度的协方差矩阵，然后求解这个协方差矩阵的特征值和对应的特征向量，将这些特征向量按照对应的特征值从大到小排列，组成新的矩阵，被称为特征向量矩阵，也可以称为投影矩阵，然后用改投影矩阵将样本数据转换。取前K维数据即可，实现对数据的降维。

假设样本数据有r维（组成一个r维向量），共有n个样本。组成r*n矩阵A，矩阵每一列是一个样本，行是各个不同的特征维度。求解协方差矩阵S=AA^T（最好先将A进行每个维度上的数据进行中心化A→C再求协方差矩阵S=CC^T），S是r*r的方阵，用X(j)表示样本数据的第j维数据，则求解协方差矩阵

其中表示两个维度之间的协方差

很显然S是个对称矩阵，求解S的特征向量以及对应的特征值，按照特征值大小依次排列特征向量，将这些特征向量（列向量）组成一个矩阵，被称为转换矩阵或者投影矩阵。如果只取前K列特征向量组成的矩阵P，再把原样本数据用投影矩阵转换到新的坐标空间A’=P^TA，可以实现数据的降维。

△为什么要用协方差矩阵来做呢？

虽然PCA降维方法我很早就知道，但是最近实验室老师让我看稀疏PCA方法解决他的三维人体建模的问题。我心里默默地在想，样本数据固定了，以上的S不就是定了吗？为神马还出来一个稀疏PCA？于是我就抱着理解原理本质的心理来重新看PCA，然后就发现一个关键的问题：PCA为什么要用协方差矩阵的特征向量矩阵来做投影矩阵呢？为神马啊为神马？想不通……这样做出来的投影矩阵一定能保证样本数据投影到另一个坐标系后，前几个坐标的值保证是最大特征？然后我找啊找，终于找到一个资料，尼玛……终于拨云见日啊~现在我用自己的理解用浅显易懂的描述来说明为嘛用协方差矩阵？！

在说PCA的协方差矩阵之前我们先来说说投影矩阵。

1. 关于投影矩阵/变换矩阵

一个向量经过变换矩阵，只要变化矩阵的基分量之间是相互线性无关的就可以实现转换，什么叫线性无关呢？想象一下三维空间向量(a, b, c)，每个基向量不共线就算是线性无关，当然还有一个条件，就是不能共面啊（不然其中一个基向量就可以用其他基向量来组合表示，他们组成的向量矩阵就不是满秩，不是3只有2）。扩展到N维空间就是N个基向量，每个基向量都不能由其他基向量线性组合得到。这种线性无关基向量组成的变换矩阵肯定是可逆的（方阵N*N的秩为N），可逆就可以实现两个坐标系的相互转换啊~

坐标转换1：

设V₁V₂...V_n（均为列向量）是一组标准正交基，x₁ x_2..... x_n是在该基下的一个坐标。则V₁*x₁+V₂*x₂+…+V_n*x_n={y₁ y_2......y_n}^T为该点在新基下的坐标。

其中这组新基为{1, 0, ..., 0}^T,{0, 1, ..., 0}^T…{0, 0, ..., 1}^T

坐标转换2：

若想将 {y₁ y_2......y_n}^T转换为在某个基V₁V₂...V_n下的坐标，只需左乘{V₁V₂...V_n}^-1即可。

一个样本在投影矩阵P的作用下，转换到另一个坐标空间，相当于求得该样本向量在P不同列向量的投影坐标。

一个坐标系转换到另一个坐标系，转换矩阵其实不需要标准化（向量单位化，即向量的模为1），也不需要正交基的矩阵（两两向量正交，即相乘为0），只要满足上述“线性无关”的要求，数据就可以从一个度量空间转换到另一个空间，而且可以相互转换A'=P*A，A=P^-1A'，转换矩阵为P，而A和A'是两个空间中的不同表示。只是正交基和标准基会有一些好处：

如果P是标准化矩阵，由于P^-1P=I（恒等式），P^TP=I（标准化矩阵性质），就会有P^T=P^-1，求解坐标转换速度更快，因为求转置矩阵比求逆矩阵快很多。
如果P是正交矩阵，基向量两两正交，说明两个向量相关性很小，相当于数据在这两个维度上的相关性很小。线性无关不等于不相关，一个基向量在另一个基向量上有投影值，说明
更进一步，标准正交矩阵更好，结合了以上两个优点，所以PCA求出来的特征向量矩阵是标准正交矩阵是一个大大大好的东西。

2. 协方差矩阵：

【我们希望去除的信息：

1. 噪声：我们常说“噪音污染”，意思就是“噪声”干扰我们想听到的真正声音。同样，假设样本中某个主要的维度A，它能代表原始数据，是“我们真正想听到的东西”，它本身含有的“能量”(即该维度的方差)，本来应该是很大的，但由于它与其他维度有那么一些千丝万缕的相关性，受到这些个相关维度的干扰，它的能量被削弱了，我们就希望通过PCA处理后，使维度A与其他维度的相关性尽可能减弱，进而恢复维度A应有的能量，让我们“听的更清楚”！

2. 冗余：冗余也就是多余的意思，就是有它没它都一样，放着就是占地方。同样，假如样本中有些个维度，在所有的样本上变化不明显(极端情况：在所有的样本中该维度都等于同一个数)，也就是说该维度上的方差接近于零，那么显然它对区分不同的样本丝毫起不到任何作用，这个维度即是冗余的，有它没它一个样。

降维的目的就是“降噪”和“去冗余”。“降噪”的目的就是使保留下来的维度间的相关性尽可能小，而“去冗余”的目的就是使保留下来的维度含有的“能量”即方差尽可能大。那首先的首先，我们得需要知道各维度间的相关性以及个维度上的方差啊！那有什么数据结构能同时表现不同维度间的相关性以及各个维度上的方差呢？自然是协方差矩阵！

协方差矩阵度量的是维度与维度之间的关系，而非样本与样本之间。协方差矩阵的主对角线上的元素是各个维度上的方差(即能量)，其他元素是两两维度间的协方差(即相关性)。我们要的东西协方差矩阵都有了，先来看“降噪”，让保留下的不同维度间的相关性尽可能小，也就是说让协方差矩阵中非对角线元素都基本为零。达到这个目的的方式自然不用说，线代中奖的很明确——矩阵对角化。】

以上就是为什么要用协方差矩阵的原因！

【而对角化后得到的矩阵，其对角线上是协方差矩阵的特征值，它还有两个身份：