MATLAB主成分分析实战指南-CSDN博客

本文链接：https://blog.csdn.net/weixin_36289742/article/details/144174630

简介：主成分分析（PCA）是数据降维的一种技术，它通过转换原始数据到线性无关的主成分，降低数据复杂性，同时尽可能保留原始数据的方差信息。MATLAB提供强大的矩阵运算功能和内置函数，便于实现PCA。本文将详细介绍如何使用MATLAB进行PCA的每个步骤，包括数据预处理、计算协方差矩阵、提取特征向量和特征值、选择主成分、数据转换、结果可视化以及从主成分恢复原始数据。PCA不仅用于降维，还可应用于图像压缩、特征提取和异常检测等领域。用matlab做主成分分析

1. 数据预处理

在进行主成分分析之前，数据预处理是一个不可或缺的步骤，它直接影响到分析结果的准确性和可靠性。数据预处理主要关注以下几个方面：

首先，缺失值处理是数据清洗的首要任务。我们可以通过删除含有缺失值的记录、填充缺失值（使用均值、中位数或众数）或预测缺失值的方式来处理。选择哪种方法取决于缺失值的分布和数据集的大小。

其次，异常值处理同样重要。异常值可能是数据录入错误，也可能是真实的极端情况。常见的处理方法包括Z-Score标准化、IQR（四分位数范围）标准化，或直接删除。

再次，数据标准化是将数据转换为具有统一量纲的过程，常用方法有最小-最大标准化和Z-Score标准化。这一步骤确保了主成分分析不会受到不同量纲数据的影响。

本章将深入探讨这些步骤，并给出在实际应用中的操作方法。通过对数据预处理的理解和实践，我们可以确保为后续的主成分分析打下坚实的基础。

2. 协方差矩阵或相关矩阵计算

协方差矩阵计算与应用

协方差矩阵的数学基础

在数据分析中，协方差矩阵是衡量变量之间相互关系的重要工具。它反映了各变量之间的线性相关性，每个元素是两个变量的协方差。如果变量之间独立，则协方差为零。在MATLAB中，我们可以使用 cov 函数来计算一组数据的协方差矩阵。下面是一个计算协方差矩阵的基本例子。

% 假设A是一个数据矩阵，每一列代表一个变量，每一行代表一个观测
A = [2.5 2.4 2.3; 0.5 0.7 0.6; 2.2 2.9 2.0; 1.9 2.2 1.8];
cov_matrix = cov(A);
disp(cov_matrix);

在上述代码中， cov(A) 函数计算了矩阵 A 中列变量的协方差矩阵，并通过 disp 函数展示结果。输出的矩阵对角线元素代表变量自身的方差，非对角线元素表示变量间的协方差。

协方差矩阵在MATLAB中的计算细节

为了更深入理解协方差矩阵的计算过程，我们可以将 cov 函数内的算法简化成以下步骤： 1. 计算每个变量的平均值。 2. 每一对变量之间计算它们的乘积与各自平均值的差的乘积之和。 3. 将步骤2得到的乘积之和除以观测数减一，得到协方差。 4. 构建一个方阵，其中对角线是每个变量的方差，非对角线是变量间的协方差。

% 算法步骤实现
n = size(A, 1); % 观测的数量
mean_A = mean(A); % 计算每列的平均值
cov_matrix = zeros(size(A, 2)); % 初始化协方差矩阵

for i = 1:size(A, 2)
    for j = i:size(A, 2)
        cov_matrix(i, j) = sum((A(:, i) - mean_A(i)).*(A(:, j) - mean_A(j))) / (n-1);
        if i ~= j
            cov_matrix(j, i) = cov_matrix(i, j); % 协方差矩阵是对称的
        end
    end
end

disp(cov_matrix);

协方差矩阵的解读

在解读协方差矩阵时，对角线上的值代表了各个变量的方差。方差越大，代表数据在该维度上的变化越大。非对角线上的值是变量间的协方差，代表变量间的变化趋势。如果两个变量的协方差为正，则它们在样本中呈现同增同减的趋势；反之，如果协方差为负，则呈现一个增加另一个减少的趋势。协方差的绝对值大小表示变量间关系的强弱。

协方差矩阵的限制

需要注意的是，协方差矩阵只考虑了变量之间的线性关系。如果数据之间的关系是非线性的，那么协方差矩阵可能无法准确反映变量间的关系。

3. 特征值和特征向量计算

特征值和特征向量在主成分分析（PCA）中扮演着核心角色。它们不仅是理解数据结构的窗口，而且也是降维过程中所依据的关键量度。为了深入理解它们在PCA中的作用，本章将探讨如何在MATLAB中计算特征值和特征向量，并分析它们在数据分析中的意义。

特征值和特征向量的理论基础

在数学中，特征值和特征向量是线性代数中的基本概念。对于一个n×n的矩阵A，如果存在标量λ和非零向量v使得：

A * v = λ * v

则称λ为矩阵A的一个特征值，相应的v为对应的特征向量。在PCA的语境下，特征向量代表了数据中方差最大的方向，而特征值则表示该方向中方差的大小。

在MATLAB中计算特征值和特征向量

MATLAB提供了一个非常方便的函数 eig ，它可以直接用来计算矩阵的特征值和特征向量。下面给出一个简单的代码块和相应的解释。

% 假设A是一个协方差矩阵或者相关矩阵
A = [1, 2; 2, 4];

% 使用eig函数计算特征值和特征向量
[V, D] = eig(A);

% 输出特征值矩阵D和特征向量矩阵V
disp('特征值矩阵D:');
disp(D);

disp('特征向量矩阵V:');
disp(V);

在这个例子中， eig(A) 函数返回两个值：特征向量矩阵 V 和特征值矩阵 D 。矩阵 D 是一个对角矩阵，其对角线上的元素就是特征值，而 V 的每一列代表对应的特征向量。

特征值和特征向量的解析

特征值矩阵 D 中的每个元素都代表了一个方向的方差量，而特征向量矩阵 V 中的列向量则指向了这些方向。在PCA过程中，我们通常按照特征值的大小对特征向量进行排序，选择那些对应较大特征值的特征向量，因为它们代表了数据的主要方向。

特征值和特征向量在PCA中的应用

在PCA中，特征值和特征向量的实际应用涉及到数据降维。通过选择那些对应于较大特征值的特征向量，我们可以构造出一个新空间，其中数据的大部分方差（信息）被保留下来。这个新空间就是PCA的结果，而这些选定的特征向量就是主成分。

特征值的选择标准

在PCA过程中，一个常用的选择标准是“累计贡献率”。这个标准基于一个原则：选择足够多的主成分，直到它们的累计贡献率达到一个合理的阈值（比如85%或90%）。这个过程可以通过计算每个特征值占特征值总和的比例来实现。

% 假设D为特征值矩阵
sumD = sum(diag(D)); % 计算特征值的总和

% 计算每个特征值的贡献率
contributionRate = diag(D) / sumD;

% 计算累计贡献率
cumulativeRate = cumsum(contributionRate);

% 输出累计贡献率
disp('累计贡献率:');
disp(cumulativeRate);

通过上述代码块，我们可以计算每个特征值的贡献率，并且得到一个累计贡献率的向量，从而根据累计贡献率来确定保留的主成分数量。

特征值和特征向量的可视化

可视化特征值和特征向量有助于我们更好地理解它们在数据中的作用。我们可以使用MATLAB中的 bar 函数来绘制特征值的柱状图，而使用 quiver 函数来绘制特征向量的方向。

% 绘制特征值的柱状图
figure;
bar(diag(D));
title('特征值的柱状图');

% 绘制特征向量
figure;
for i = 1:size(V, 2)
    % 绘制每个特征向量
    quiver([0, V(1, i)], [0, V(2, i)], 'k'); % 只取前两维绘制
    hold on;
end
axis equal;
title('特征向量');

以上代码块将有助于你直观地理解特征值的重要性以及特征向量在数据中的方向。在实际操作中，我们可以结合PCA分析的需求，选择适当的图表来展示这些重要的结果。

表格：特征值和特征向量的重要性

| 特征值 | 特征向量 | 方差贡献率 | 累计贡献率 | |--------|----------|------------|------------| | λ1 | v1 | r1 | c1 | | λ2 | v2 | r2 | c2 | | ... | ... | ... | ... | | λn | vn | rn | cn |

上述表格是一个简化的例子，其中λ代表特征值，v代表对应的特征向量，r代表单个特征值的方差贡献率，而c代表累计贡献率。这个表格可以帮助我们快速地查看各个特征值和特征向量的重要性和它们对总方差的贡献程度。

通过本章节的介绍，你已经学习了如何在MATLAB中进行特征值和特征向量的计算以及它们在PCA中的作用。接下来，我们将探讨如何利用这些计算结果进行主成分的选择，即在第四章中我们将详细讨论关于选择和优化主成分的策略。

4. 主成分选择

在进行主成分分析（PCA）时，我们常常得到多个主成分，但并非所有的主成分都是我们需要的，或者说并非所有的主成分都同等重要。为了有效地对数据进行降维，同时尽可能保留原始数据的信息，我们需要选择最重要的主成分。这一过程称为“主成分选择”。本章将详细探讨几种在MATLAB中实施主成分选择的常用方法，并结合代码实例进行说明。

选择标准

选择主成分时，最常用的标准包括累计贡献率和碎石图。以下是这两种标准的详细介绍：

累计贡献率

累计贡献率是通过计算前几个主成分的方差贡献总和来确定的。假设我们的数据集有n个主成分，分别记为PC1, PC2, ..., PCn，并且每个主成分对应的方差分别为eigenvalue1, eigenvalue2, ..., eigenvaluen。累计贡献率可以通过以下公式计算：

[ \text{累计贡献率} = \frac{\sum_{i=1}^{k} \text{eigenvalue} i}{\sum {i=1}^{n} \text{eigenvalue}_i} ]

其中k表示我们选择的主成分数量。通常，我们会设定一个阈值，比如85%，然后选择方差之和占总方差85%以上的所有主成分。MATLAB中的代码片段如下：

% 假设eigenvalues是计算出来的特征值数组
sortedEigenvalues = sort(diag(eigenvectors), 'descend');
cumulativeVariance = cumsum(sortedEigenvalues) / sum(sortedEigenvalues);
numComponents = find(cumulativeVariance >= 0.85, 1, 'first'); % 选择累计贡献率达到85%的主成分数量

碎石图

碎石图是一种通过图形化方式帮助我们决定应该保留多少主成分的工具。在碎石图中，主成分按照它们的特征值大小进行排序，并在图表上以点的形式绘制出来。通常，点的斜率变化会呈现出一个“碎石”的形状，而我们应该保留的是“碎石”开始之前的那些主成分。

MATLAB实现

在MATLAB中实现碎石图，可以使用以下代码：

% 假设eigenvalues是计算出来的特征值数组
plot(1:length(eigenvalues), sort(eigenvalues, 'descend'), 'b-o');
title('Scree Plot');
xlabel('Principal Component');
ylabel('Eigenvalue');
grid on;

% 根据碎石图确定主成分数量
% 这通常需要一定的主观判断，但可以根据经验或直觉来选择
numComponents = 5; % 示例值，实际值应根据碎石图情况决定

代码逻辑分析

在上述代码块中，首先我们对特征值进行排序，并将排序后的特征值绘制成碎石图。然后，我们根据碎石图的形状主观选择一个点作为拐点，这个拐点之后的特征值通常认为是相对不那么重要的。该点之前的主成分数量，即为我们选择保留的主成分数量。

请注意，不同的数据集可能会产生不同的碎石图形状，因此选择主成分的过程需要具体问题具体分析。有些数据集可能在拐点之后仍然有显著的特征值下降，而有些数据集则可能没有明显的拐点。

参数说明

在上述MATLAB代码中，我们使用了 sort 函数对特征值进行排序，并将排序后的结果绘制成图形。 find 函数用于查找累计贡献率达到85%的点，以便确定要保留的主成分数量。

此外， diag 函数用于从特征向量矩阵中提取特征值，而 eig 函数用于计算特征值和特征向量。

优化方式讨论

在实际应用中，除了累计贡献率和碎石图之外，还有其他一些方法用于选择主成分，如Kaiser准则、平行分析等。每种方法都有其适用性和局限性，因此在实践中，我们通常会结合多种方法来确定最终的主成分选择。

我们还应该注意，主成分分析的结果高度依赖于原始数据的特征和数据预处理步骤。因此，在主成分选择之前，确保数据预处理步骤的准确性和合理性是非常关键的。

通过以上的主成分选择方法，我们可以有效地对数据进行降维处理，保留最重要的特征信息，同时减少噪声和冗余信息的影响。这将为后续的数据分析和可视化提供坚实的基础。

5. 主成分数据转换

当我们根据累计贡献率或碎石图等标准选定了主成分之后，下一步是将原始数据转换为主成分数据。在这一过程中，数据将被映射到一个由所选主成分构成的低维空间中。这一映射有助于降维和去除数据噪声，同时保留了数据中的主要信息。本章将介绍转换的方法，并通过MATLAB中的实际操作来演示如何将数据映射到选定的主成分空间。

5.1 主成分转换过程的理论基础

主成分分析（PCA）的核心是找到一组线性无关的向量，这些向量能够在多维数据中表示最大的方差。选定主成分后，原始数据集可以通过下面的数学模型转换到主成分空间：

[ X = T \times P^T + M ]

其中，(X)是原始数据集，(T)是主成分得分矩阵（即原始数据在主成分空间的映射），(P)是主成分载荷矩阵（特征向量），(M)是数据的均值向量。通过该模型，数据在高维空间中的位置可以根据选定的主成分重新表述。

5.2 使用MATLAB进行主成分数据转换

MATLAB提供了多种函数来执行PCA和数据转换，其中 pca 函数是最常用的方法。以下是一个简单的示例，展示如何使用MATLAB对数据进行PCA转换：

% 假设 A 是原始数据矩阵，每列代表一个变量，每行代表一个观测值
A = randn(100, 5); % 随机生成一个100x5的矩阵作为示例数据

% 执行PCA分析，中心化数据但不缩放
[COEFF, SCORE, LATENT] = pca(A, 'Centered', true);

% COEFF 是载荷矩阵，SCORE 是主成分得分矩阵
% LATENT 是特征值（方差解释量）

% 选定了前k个主成分，这里以前2个为例
k = 2;
T = SCORE(:, 1:k); % 主成分得分矩阵

% 现在，原始数据矩阵A已被转换到了新的主成分空间

5.2.1 代码逻辑的逐行解读分析

A = randn(100, 5); ：创建了一个100个观测值和5个变量的矩阵作为原始数据集。
[COEFF, SCORE, LATENT] = pca(A, 'Centered', true); ：调用 pca 函数对数据集 A 进行PCA分析。参数 'Centered', true 指示函数中心化数据，即从每个变量中减去其平均值。
k = 2; ：设定我们希望保留的主成分数量为2。
T = SCORE(:, 1:k); ：从主成分得分矩阵 SCORE 中选取前 k 个主成分得分，构造新的低维数据矩阵 T 。

通过上述代码，我们可以得到降维后的新数据集 T ，其中每一行代表一个观测值在选定主成分空间中的坐标。

5.3 主成分选择和逆变换的实践考虑

在实际应用中，选择主成分的数目可能会影响数据转换的质量。选择较少的主成分会失去一些重要信息，而选择较多的主成分则可能包含不必要的噪声。在MATLAB中，通常可以通过查看特征值和累计贡献率的图表（如碎石图）来辅助决策。

此外，在需要时进行逆变换，将主成分数据转换回原始空间，也是数据分析中的一项重要技能。在MATLAB中，可以通过以下方式实现：

% 假设我们已经有了载荷矩阵COEFF和均值向量MEAN（在上述例子中没有展示均值向量）
% 逆变换公式为 X = T * P + M

% 恢复数据
restoredA = T * COEFF + mean(A); % 注意这里的mean(A)是原始数据集的均值

在某些情况下，需要考虑数据的单位和量纲，因此可能需要对数据进行进一步的处理，例如标准化，以确保逆变换后的数据与原始数据具有可比性。

5.3.1 主成分数据转换的表格展示

| 主成分 | 方差贡献率 | 累计贡献率 | | ------ | ----------- | ----------- | | PC1 | 30% | 30% | | PC2 | 20% | 50% | | ... | ... | ... |

表5.1：方差贡献率和累计贡献率可以帮助我们决定保留哪些主成分。

在实践中，为了做出更明智的选择，通常会绘制一个图，如碎石图，以直观展示每个主成分对总方差的贡献。图5.1是碎石图的一个示例：

graph TB
    A[PC1] -->|30%| B[PC2]
    B -->|20%| C[PC3]
    C -->|15%| D[PC4]
    D -->|10%| E[PC5]

图5.1：碎石图展示了每个主成分对总方差的贡献。

最终，我们需要根据业务需求和模型的解释能力，在解释性、精确性和复杂性之间找到一个平衡点。通过本节的介绍，您应该能够使用MATLAB进行有效的主成分数据转换，并在必要时执行逆变换。

6. 结果可视化

在主成分分析（PCA）完成之后，可视化结果能够帮助我们更直观地理解数据的结构和模式。在本章节中，我们将探索在MATLAB环境下，如何通过不同的图表来展示PCA的结果。这不仅包括散点图来展示样本点的分布，还包括载荷图和解释方差图来深入理解变量间的关系以及主成分对数据方差的贡献度。

可视化PCA结果的重要性

数据可视化是数据分析不可或缺的一步，它使得复杂的数据分析结果变得易于理解。在PCA中，数据通过降维技术被压缩到少数几个主成分上，而这些主成分往往蕴含着原始数据中最重要的信息。因此，可视化这些主成分可以帮助我们：

探索数据的内在结构和模式。
评估PCA分析的质量和效果。
向非技术背景的利益相关者传达分析结果。

制作散点图来展示样本分布

散点图是观察样本点分布的一种非常有效的方法。在PCA的语境下，我们可以使用散点图来展示样本在选定的主成分空间中的位置。这可以帮助我们识别数据中是否存在明显的聚类或者离群点。以下是在MATLAB中绘制PCA散点图的代码块：

% 假设 Y 是由 PCA 转换得到的主成分数据
% [U, S, V] = svd((X - mean(X)) / sqrt(size(X, 1) - 1));

% 选取前两个主成分进行可视化
figure;
scatter(Y(:,1), Y(:,2));
title('PCA 2D Scatter Plot');
xlabel('Principal Component 1');
ylabel('Principal Component 2');
grid on;

在这段代码中，我们假设 X 是原始数据矩阵，并且已经通过SVD分解得到主成分矩阵 U 。我们将 Y 定义为原始数据的主成分表示，其中每一行代表一个样本在主成分空间中的坐标。选择前两个主成分进行绘图，因为我们希望在一个二维平面上展示数据。

创建载荷图来展示变量间的关系

载荷图用于展示原始变量在主成分上的权重，也即载荷。载荷值的大小表示了该变量在特定主成分上的影响力。通过载荷图，我们可以理解哪些变量对主成分的贡献最大。以下是在MATLAB中创建载荷图的代码示例：

% 假设 PCs 是由 PCA 计算出的主成分矩阵
% PCs = U * sqrt(diag(S));

% 获取前两个主成分的载荷值
loadings = PCs(:,1:2)';

% 绘制载荷图
figure;
biplot(loadings);
title('Biplot of Principal Components');
xlabel('Principal Component 1');
ylabel('Principal Component 2');
grid on;

在这段代码中， biplot 函数用于绘制包含载荷的散点图。图中的箭头指向表示原始变量的方向，其长度表示变量在主成分上的影响力大小。

绘制解释方差图

解释方差图是一种条形图，用于展示每个主成分解释的方差比例。通过这个图，我们可以快速了解需要保留多少个主成分来代表原始数据集的大部分信息。以下是如何在MATLAB中绘制解释方差图的代码示例：

% 假设 eigenvalues 是特征值数组
% [V, D] = eig((X - mean(X))' * (X - mean(X)) / (size(X, 2) - 1));
% eigenvalues = diag(D);

% 计算每个主成分解释的方差
explained_var = eigenvalues / sum(eigenvalues);

% 绘制解释方差图
figure;
bar(explained_var);
title('Explained Variance by Each Principal Component');
xlabel('Principal Component');
ylabel('Explained Variance Ratio');
grid on;

在这段代码中， eigenvalues 是一个包含特征值的数组，通过除以所有特征值的总和，我们可以得到每个主成分解释的方差比例。使用 bar 函数绘制条形图，横轴表示主成分，纵轴表示相应主成分解释的方差比例。

通过可视化发现数据模式和异常

通过PCA结果的可视化，我们可以发现数据中的潜在模式和异常点。例如，在散点图中，如果某些样本点显著偏离其他点，它们可能是潜在的异常值。在载荷图中，如果某些变量在特定主成分上有很大的载荷值，它们可能是该主成分的主要构成变量。

结合PCA可视化和业务决策

在业务场景中，PCA可视化结果可以指导我们进行进一步的分析和决策。例如，在顾客细分、市场分析或疾病诊断等场景中，可视化可以帮助我们更好地理解各个类别或组别之间的差异。通过这种方式，企业或研究人员可以发现新的市场机会、优化营销策略或提供更个性化的医疗建议。

在下一章中，我们将进一步探索如何将主成分分析的结果逆向转换回原始数据空间，以及这个逆变换过程在实际应用中的意义和限制。

7. 从主成分到原始数据的逆变换

在完成了主成分分析之后，我们得到了一组由原始数据投影得到的主成分数据。有时，为了进一步分析或者便于解释，我们需要将这些主成分数据逆向转换回原始数据空间。本章节将介绍逆变换的基本概念，并说明如何在MATLAB环境中实现这一过程。

逆变换的数学基础

逆变换的目的是为了从主成分空间还原出接近原始数据的表示形式。数学上，逆变换可以通过矩阵运算实现，具体来说，如果原始数据矩阵为 (X)，主成分分析得到的载荷矩阵为 (P)，主成分得分为 (Y)，那么原始数据可以通过下式逆变换得到：

[X_{reconstructed} = Y \times P^T]

其中 (P^T) 是载荷矩阵的转置。

在MATLAB中实现逆变换

在MATLAB中，逆变换可以通过简单的矩阵运算来实现。首先，确保你已经完成了主成分分析，并且保留了主成分得分和载荷矩阵。以下是一段示例代码，展示如何进行逆变换：

% 假设Y是主成分得分矩阵，P是载荷矩阵
% 逆变换原始数据矩阵X_reconstructed
X_reconstructed = Y * P';

% 显示前几行数据以检查逆变换结果
disp(X_reconstructed(1:10, :));

在此代码中， Y 是主成分得分矩阵， P' 是载荷矩阵的转置。乘以转置载荷矩阵后，我们得到了逆变换后的数据 X_reconstructed 。

逆变换的应用与限制

应用

逆变换在某些实际应用中非常有用。例如，在数据压缩后，如果需要对数据进行进一步处理或分析，可以使用逆变换来还原数据。此外，逆变换也有助于理解主成分代表的具体含义，将主成分“翻译”回原始变量的语言。

限制

虽然逆变换看起来非常直接，但它也有局限性。由于主成分分析是一种降维技术，原始数据在转换过程中会丢失一些信息。因此，逆变换得到的数据只能近似原始数据，而不能完全还原。这可能导致逆变换后的数据在某些方面与原始数据存在偏差。

结论

在本章节中，我们学习了如何在MATLAB中进行主成分到原始数据的逆变换，并了解了其在实际应用中的意义及局限。逆变换是一个强大的工具，尤其是在需要对主成分进行解释或者进一步处理的情况下。不过，我们也必须意识到，在数据丢失无法避免的情况下，逆变换仅提供了一个近似的原始数据视图。在使用逆变换时，始终要记住这一点。

在下一章节中，我们将继续探索主成分分析在更多实际场景中的应用，并讨论其在特定领域内的意义和最佳实践。

本文还有配套的精品资源，点击获取