机器学习主成分分析法（PCA）创新：基于协方差矩阵的PCA创新（GCPCA）

最新推荐文章于 2024-05-18 03:44:14 发布

我叫Ycg

最新推荐文章于 2024-05-18 03:44:14 发布

阅读量924

点赞数 2

分类专栏：机器学习文章标签：矩阵线性代数

本文链接：https://blog.csdn.net/QENGFENG/article/details/127523692

版权

机器学习专栏收录该内容

5 篇文章 2 订阅

订阅专栏

什么是PCA

（大白话：就是降低维度，例如把一个三维的坐标表示成二维坐标或者一维坐标）

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

PCA的具体实现

举个简单的例子，下表为随机选取的六名学生的数学和语文考试成绩：

制作为散点图：

Step 1

图中每个点代表了一个学生，X轴代表语文成绩，Y轴代表数学成绩。然后分别取所有样本的X平均值和Y平均值，并将这两个值变为X、Y坐标，在图中画出这个点（用五角星表示）:

Step 2

按照图中箭头所示方向，将整个坐标系平移，使原点与五角星重叠。这样就获得了一个新的平面直角坐标系。

Step 3

尽管此时坐标系和每个点的值都发生了变化，点与点之间的相对位置仍保持一致。找到这些点的最优拟合线（Line of Best Fit），也就找到了PC1，再通过原点做PC1的垂线，就找到了PC2：

Step 4

处理三维数组时便会产生第三个因子（PC3），以此类推，数据的维度越大，因子的数量也就越多。当维度大于等于4的时候，我们是无法想象出图像的，但PC4确实存在；假设有x个维度，便可以做x-1条垂线，就能得到PCx。接下来要做的便是选取最能代表数据差异性的两个因子，作为PC1和PC2。

按照下图所示，将点A投影到PC1上（六角星的位置），并计算其与原点之间的距离称为d1：

Projection

其余的五个点也做同样操作，得出d2至d5，再求这六个距离的平方和，称为PC1的特征值（Eigenvalue）。然后将PC1的特征值除以总样本数量减一（n-1），就计算出了PC1的差异值（Variation）。

Variation Example

以此类推，并选择差异值最大的两个因子作为PC1 和 PC2。假设在某个三维数组中，获得了PC1、PC2和PC3的差异值分别为18，7，5。通过计算（18+7）/ (18+7+5) ≈ 83.3% 得到结论：PC1 和 PC2 代表了这个三维数组83.3%的差异性。在本次分析的13个因子中，PC1和PC2描述了整组数据约81%的差异性：