PCA降维理解

CSDN_XZL

已于 2023-09-14 11:45:08 修改

阅读量103

点赞数

文章标签：算法

于 2023-06-21 16:20:39 首次发布

本文链接：https://blog.csdn.net/CSDN_XZL/article/details/131328622

版权

PCA(主成分分析)是一种常用的降维方法，通过选取方差最大的k个特征向量来表示数据，以达到降维和特征显示的目的。PCA首先对特征去中心化，然后计算协方差矩阵，接着找出矩阵的特征值和对应的特征向量，最后将原始数据投影到这些特征向量上，形成新的低维表示。

摘要由CSDN通过智能技术生成

选取特征值最高的k个特征向量来表示一个矩阵，从而达到降维分析+特征显示的方法。

一个45度倾斜的椭圆，在第一坐标系，如果按照x,y坐标来投影，这些点的x和y的属性很难用于区分他们，因为他们在x,y轴上坐标变化的方差都差不多，我们无法根据这个点的某个x属性来判断这个点是哪个，而如果将坐标轴旋转，以椭圆长轴为x轴，则椭圆在长轴上的分布比较长，方差大，而在短轴上的分布短，方差小，所以可以考虑只保留这些点的长轴属性，来区分椭圆上的点，这样，区分性比x,y轴的方法要好！

所以对于一个k维的特征来说，可以看成它的每一维特征与其他维都是正交的（就像在多维坐标系中，坐标轴都是垂直的），然后我们可以变化这些维的坐标系，从而使这个特征在某些维上方差大，而在某些维上方差很小，方差更大具有更明显的特征表现。所以PCA的方式就是取n个较大方差所对应的特征项向量作为一种降维后的坐标系，从而将整个特征投影过去，完成特征数的降维。

例如，现有M个样本 $\left \{ X^{1}, X^{2},X^{3},...,X^{M}\right \}$ ,每个样本可以提取出N维特征 $X^{i}=\left \{ x_{1}^{i}, x_{2}^{i}, x_{3}^{i},..., x_{N}^{i}\right \}^{T}$ ，那么它可以建立一个M*N的矩阵。要相对这N维特征进行降维，就需要尽可能将原始特征往具有最大信息量的维度上进行投影，找到这个维度也就是投影矩阵的方式就是计算M*N矩阵的协方差矩阵，得到协方差矩阵的特征向量和特征值，取其中最大的k个特征值对应的特征向量（也就是即将投影的坐标系）组成N*k的特征矩阵（投影）。（降维后一行向量每个值，可以理解成这行原特征向量分解投影在现选降维坐标系的值），M*N矩阵与N*k特征矩阵的结果就是M*k的矩阵，代表M个样本降维成k维的矩阵。