主成分分析（PCA）

最新推荐文章于 2024-09-09 12:58:58 发布

m0_66119857

最新推荐文章于 2024-09-09 12:58:58 发布

阅读量380

点赞数 8

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_66119857/article/details/135085616

版权

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的无监督数据维度约减算法，其主要思想是将n维特征映射到k维主成分上，k维主成分是在原有n维特征的基础上重新构造出来的k维特征，且k<n。当然，降维会导致损失，为了尽可能减小它，需要谨慎选择主成分，最好是能够让所有的样本点尽量靠近主成分对应的轴，也就是所谓“方差（协方差）最大”。

PCA需要从原始的空间中顺序寻找多个主成分，其选择与数据本身相关。其中，每一个主成分对应的坐标轴都与前后主成分对应的坐标轴正交，且第i个主成分在样本集中具有第i大的方差。依次类推，可以得到n个这样的坐标轴。

为了得到这些具有最大差异的主成分的方向，PCA算法需要计算样本矩阵的协方差矩阵及其特征值和特征向量。

对于二维样本，方差 $Var\left (\boldsymbol{x} \right )=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2$ ；

更高的维度下，可以首先找到一个使得投影方差最大的主成分，然后在这个基础上，找到和这个方向正交的另外一个使得余下的投影方差最大的主成分，也就是计算各维之间协方差 $Cov(x,y)=\frac{1}{n-1}\sum_{i=1}^{n}\left (x- \overline{x_i} \right )\left ( y-\overline{y_i} \right )$ 。各维之间的协方差构成了协方差矩阵 $C$ ，且 $C=\frac{1}{n}X^TX$ 。