【matlab】pca函数使用方法

Lin__coln

已于 2022-09-08 19:13:39 修改

阅读量8.2k

点赞数 8

分类专栏：数据处理 matlab 文章标签： matlab 算法数据分析

于 2022-09-08 19:08:30 首次发布

本文链接：https://blog.csdn.net/Lin__coln/article/details/126767355

版权

数据处理同时被 2 个专栏收录

3 篇文章

订阅专栏

matlab

1 篇文章

订阅专栏

以下关于函数的内容可在官网查到，本文档对其进行解释与说明。

关于pca原理的说明，可见文档【数据处理方法】主成分分析（PCA）原理分析

语法：

coeff = pca(X)

coeff = pca(X,Name,Value)

[coeff,score,latent] = pca(_)

[coeff,score,latent,tsquared] = pca(_)

[coeff,score,latent,tsquared,explained,mu] = pca(_)

说明：

coeff = pca(X)

X是n*p的数据矩阵，n代表个数，p代表维度。得到的coeff是p*p的系数矩阵，也即特征向量矩阵，coeff的每个列向量代表一个主成分，并且这些主成分按照成分方差的降序排列，也就是说，越往前的主成分，成分方差越大，保留的数据信息越多，越有价值。默认情况下，pca将数据中心化，并使用奇异值分解（SVD）算法。

coeff = pca(X,Name,Value)

可以使用一个或多个Name,Value对组参数，来指定用于计算和处理特殊数据类型的附加选项。

例如，可以指定pca返回的主成分数量，或者使用SVD以外的其他算法。

[coeff,score,latent] = pca(_)

除返回系数矩阵coeff外，还可以返回score,和latent，其中score为主成分分数，即数据在各主成分上的坐标(横向)，latent返回主成分方差。

[coeff,score,latent,tsquared] = pca(_)

还返回X中每个观测值的Hotelling T方统计量。

[coeff,score,latent,tsquared,explained,mu] = pca(_)

还返回explaiend(每个主成分方差占所有方差总和的百分比)和mu(X中每个变量的估计均值)。

示例：

求数据集的主成分

加载样本数据集

load hald

原料数据有4个变量的13个观测值。

找出原料数据的主成分。

coeff = pca(ingredients)

coeff = 4×4

   -0.0678   -0.6460    0.5673    0.5062
   -0.6785   -0.0200   -0.5440    0.4933
    0.0290    0.7553    0.4036    0.5156
    0.7309   -0.1085   -0.4684    0.4844

coeff的行包含四个变量的系数，列对应四个主成分。

主成分系数、分数和方差：

计算主成分的系数、分数和方差。

加载样本数据集。

load hald

原料数据有 4 个变量的 13 个观测值。

计算原料数据的成分的主成分系数、分数和方差。

coeff = pca(ingredients)

coeff = 4×4

   -0.0678   -0.6460    0.5673    0.5062
   -0.6785   -0.0200   -0.5440    0.4933
    0.0290    0.7553    0.4036    0.5156
    0.7309   -0.1085   -0.4684    0.4844

score = 13×4

   36.8218   -6.8709   -4.5909    0.3967
   29.6073    4.6109   -2.2476   -0.3958
  -12.9818   -4.2049    0.9022   -1.1261
   23.7147   -6.6341    1.8547   -0.3786
   -0.5532   -4.4617   -6.0874    0.1424
  -10.8125   -3.6466    0.9130   -0.1350
  -32.5882    8.9798   -1.6063    0.0818
   22.6064   10.7259    3.2365    0.3243
   -9.2626    8.9854   -0.0169   -0.5437
   -3.2840  -14.1573    7.0465    0.3405
      ⋮

latent = 4×1

  517.7969
   67.4964
   12.4054
    0.2372

score 的每列对应一个主成分。向量 latent 存储四个主成分的方差。

重新构造中心化的原料数据。

Xcentered = score*coeff'

Xcentered = 13×4

   -0.4615  -22.1538   -5.7692   30.0000
   -6.4615  -19.1538    3.2308   22.0000
    3.5385    7.8462   -3.7692  -10.0000
    3.5385  -17.1538   -3.7692   17.0000
   -0.4615    3.8462   -5.7692    3.0000
    3.5385    6.8462   -2.7692   -8.0000
   -4.4615   22.8462    5.2308  -24.0000
   -6.4615  -17.1538   10.2308   14.0000
   -5.4615    5.8462    6.2308   -8.0000
   13.5385   -1.1538   -7.7692   -4.0000
      ⋮

Xcentered 中的新数据是将原始原料数据对应列减去列均值进行中心化后所得的结果。

以上为pca函数的主要使用方法，想了解更多细节，可以进入官网细看。