标准主元分析法（Principal Component Analysis，PCA）

仙界凡胎

于 2023-09-14 22:22:47 发布

阅读量483

点赞数

文章标签： matlab

本文链接：https://blog.csdn.net/cxtsinghua/article/details/132891861

版权

文章详细介绍了标准主元分析法(PCA)的原理，包括数据中心化、计算协方差矩阵、选择主成分和投影数据的过程。还提供了使用MATLAB和Python进行PCA操作的方法，以及HotellingsT-squared统计量在主成分空间中的应用。PCA常用于数据压缩、特征选择和可视化等领域。

摘要由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

提示：这里可以添加本文要记录的大概内容：

提示：以下是本篇文章正文内容，下面案例可供参考

一、标准主元分析法的原理？

标准主元分析法（Principal Component Analysis，PCA）是一种用于数据降维和特征提取的常用统计技术。它的主要目标是将原始数据集投影到一个新的坐标系中，以便在新坐标系下最大化数据的方差。这些新坐标被称为主成分，它们是原始特征的线性组合。PCA的主要原理是找到方差最大的方向作为第一个主成分，然后找到与第一个主成分正交且具有最大方差的方向作为第二个主成分，依此类推。

二、原理

数据中心化：首先，将原始数据集的每个特征减去其均值，以使数据集的均值为零。这是为了确保PCA不会受到数据的平移影响。

计算协方差矩阵：计算数据的协方差矩阵，该矩阵描述了特征之间的关系和方差。协方差矩阵的特征向量是主成分，对应的特征值表示数据在每个主成分上的方差。

选择主成分：根据特征值的大小选择要保留的主成分数量。通常，我们会按照特征值从大到小的顺序保留前k个主成分，其中k是用户定义的维度。

投影数据：将原始数据集投影到所选的主成分上，得到新的特征矩阵。

三、使用方法

数据准备：收集和准备要进行PCA的数据。确保数据已经中心化，或者在进行PCA之前对数据进行中心化处理。

计算协方差矩阵：计算数据的协方差矩阵，可以使用MATLAB中的cov函数或Python中的NumPy库来执行此操作。

计算特征值和特征向量：对协方差矩阵进行特征值分解，得到特征值和特征向量。这可以使用特征值分解函数来完成，如MATLAB中的eig函数或Python中的NumPy函数。

选择主成分：根据特征值的大小选择要保留的主成分数量。通常，可以通过设置一个方差解释比例（如95%）来决定要保留多少个主成分。

投影数据：将原始数据投影到所选的主成分上，得到新的特征矩阵。这可以通过矩阵乘法来实现。

应用主成分：使用新的特征矩阵进行后续的分析任务，如聚类、分类或可视化。

[coef, score, latent, t2] = pca(Tra)
% 这行代码执行主成分分析（PCA）操作，并将结果存储在四个变量中：coef、score、latent 和 t2。

% 输入参数：
% Tra - 输入数据矩阵，通常是一个包含观测样本的数据集，其中每一行表示一个样本，每一列表示一个特征。

% 输出参数：
% coef - 主成分系数矩阵，包含了原始数据在主成分方向上的投影系数。每一列对应一个主成分，coef 的行数等于特征数。
% score - 投影到主成分上的新数据矩阵，每一行对应一个观测样本，每一列对应一个主成分。score 的行数等于样本数。
% latent - 主成分的方差解释度，表示每个主成分解释的方差的百分比。按照方差解释度从高到低排序。
% t2 - 观测样本在主成分空间中的平方距离，也称为 Hotelling's T-squared 统计量。

% 该函数将原始数据通过PCA进行降维，得到新的特征矩阵 score 和主成分系数 coef。