PCA降维（MATLAB实践）_用matlab自带pca函数实现将54*1的向量降为1个数-CSDN博客

本文链接：https://blog.csdn.net/second24/article/details/77581527

PCA原理

PCA的原理就是将原来的样本数据投影到一个新的空间中，相当于我们在矩阵分析里面学习的将一组矩阵映射到另外的坐标系下。通过一个转换坐标，也可以理解成把一组坐标转换到另外一组坐标系下，但是在新的坐标系下，表示原来的原本不需要那么多的变量，只需要原来样本的最大的一个线性无关组的特征值对应的空间的坐标即可。
比如，原来的样本是30*1000000的维数，就是说我们有30个样本，每个样本有1000000个特征点，这个特征点太多了，我们需要对这些样本的特征点进行降维。那么在降维的时候会计算一个原来样本矩阵的协方差矩阵，这里就是1000000*1000000，当然，这个矩阵太大了，计算的时候有其他的方式进行处理，这里只是讲解基本的原理，然后通过这个1000000*1000000的协方差矩阵计算它的特征值和特征向量，最后获得具有最大特征值的特征向量构成转换矩阵。比如我们的前29个特征值已经能够占到所有特征值的99%以上，那么我们只需要提取前29个特征值对应的特征向量即可。这样就构成了一个1000000*29的转换矩阵，然后用原来的样本乘以这个转换矩阵，就可以得到原来的样本数据在新的特征空间的对应的坐标。30*1000000 * 1000000*29 = 30 *29，这样原来的训练样本每个样本的特征值的个数就降到了29个。

一般来说，PCA降维后的每个样本的特征的维数，不会超过训练样本的个数，因为超出的特征是没有意义的。

特征向量和特征值

特征向量是一个向量，当在它上面应用线性变换时其方向保持不变。考虑下面的图像，其中三个向量都被展示出来。绿色正方形仅说明施加到这三个向量上的线性变换。

这里写图片描述

矩阵乘法对应了一个变换，是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中，原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换，不对这些向量产生旋转的效果，那么这些向量就称为这个矩阵的特征向量，伸缩的比例就是特征值。

代码

>> load hald
>> [pc,score,latent,tsquare]=princomp(ingredients);%调用pca分析函数
>> %下面为计算ingredients协方差矩阵
>> cov_ingredients=cov(ingredients);
>> %接下来计算该协方差矩阵的特征值和特征向量
>> [V,D]=eig(cov_ingredients);
>> %计算降维后的空间所能表示原空间的程度
>> cumsum(latent)./sum(latent)

ans =

    0.8660
    0.9789
    0.9996
    1.0000

>> %由以上ans值可以看出前两个主成分就能表示原空间的97.886%
>> biplot(pc(:,1:2),'Scores',score(:,1:2),'VarLabels',{'X1','X2','X3','X4'})

这里写图片描述