主成分分析（PCA）详解：从理论到MATLAB实战

青橘MATLAB学习

于 2025-02-25 07:39:34 发布

阅读量1.2k

点赞数 25

分类专栏：多元分析文章标签： matlab 数学建模算法

本文链接：https://blog.csdn.net/2501_90186640/article/details/145842761

版权

多元分析专栏收录该内容

10 篇文章

订阅专栏

内容摘要：
本文系统讲解主成分分析（PCA）的数学原理、MATLAB实现及实战应用。通过Hald水泥数据案例，对比普通回归与主成分回归的性能，解析PCA在解决多重共线性、数据降维中的核心作用。提供完整代码与可视化方法，助力读者掌握特征值分解、累积贡献率计算等关键技能。

关键词：主成分分析数据降维特征值分解 MATLAB实现多重共线性

1. 主成分分析概述

主成分分析（Principal Component Analysis, PCA）是一种经典的数据降维技术，由Karl Pearson于1901年提出，后由Hotelling推广至多元统计分析领域。其核心目标是通过线性变换将高维数据映射到低维空间，保留数据的主要变异信息。PCA广泛应用于数据压缩、特征提取、噪声过滤等场景，是探索性数据分析（EDA）的重要工具。

2. PCA的数学原理

2.1 基本思想

假设数据集包含 $p$ 个变量 $X_1, X_2, \dots, X_p$ ，PCA通过构造一组新的正交变量（主成分） $Z_1, Z_2, \dots, Z_p$ ，使得：

方差最大化：每个主成分尽可能保留原始数据的变异信息。
正交性：主成分之间互不相关。

数学上，主成分是原始变量的线性组合：
$Z_i = c_{i1}X_1 + c_{i2}X_2 + \dots + c_{ip}X_p$
其中系数向量 $c_i = (c_{i1}, c_{i2}, \dots, c_{ip})^T$ 满足 $c_i^T c_i = 1$ 。

2.2 协方差矩阵与特征分解

PCA的核心是对协方差矩阵（或相关系数矩阵）进行特征分解。假设数据矩阵 $X$ 已标准化（均值为0，方差为1），则协方差矩阵为：
$\Sigma = \frac{1}{n-1} X^T X$

对 $\Sigma$ 进行特征值分解：
$\Sigma = Q \Lambda Q^T$
其中：

$\Lambda = \text{diag}(\lambda_1, \lambda_2, \dots, \lambda_p)$ 为特征值对角矩阵（ $\lambda_1 \geq \lambda_2 \geq \dots \geq \lambda_p$ ）。
$Q$ 为正交矩阵，列向量为对应的特征向量。

主成分的方差：第 $i$ 个主成分 $Z_i$ 的方差为 $\lambda_i$ 。

2.3 主成分选择

保留前 $k$ 个主成分的标准通常基于：

累积贡献率：前 $k$ 个主成分的方差占比超过阈值（如80%）。
$\text{累积贡献率} = \frac{\sum_{i=1}^k \lambda_i}{\sum_{i=1}^p \lambda_i}$
Kaiser准则：保留特征值大于1的主成分（适用于相关系数矩阵）。

3. PCA的MATLAB实现

3.1 核心函数详解

（1）`princomp` 或 `pca`

功能：计算主成分系数、得分及特征值。

语法：

[coeff, score, latent] = pca(X);

输入：
- X： $\times p$ 数据矩阵，每行为一个样本。
输出：
- coeff： $\times p$ 主成分系数矩阵，每列对应一个主成分的系数向量。
- score： $\times p$ 主成分得分矩阵，表示样本在主成分空间的投影。
- latent： $\times 1$ 特征值向量（按降序排列）。

（2）`cumsum`

功能：计算累积贡献率。

示例：

cum_contr = cumsum(latent) / sum(latent);  
plot(cum_contr, 'o-'); % 绘制累积贡献率曲线

（3）`biplot`

功能：绘制双标图（Biplot），可视化主成分得分与变量载荷。

语法：

biplot(coeff(:,1:2), 'Scores', score(:,1:2));

3.2 完整代码流程

% 数据标准化  
X = zscore(raw_data);  

% 计算主成分  
[coeff, score, latent] = pca(X);  

% 计算累积贡献率  
cum_contr = cumsum(latent) / sum(latent);  

% 选择主成分（例如保留前2个）  
k = 2;  
selected_coeff = coeff(:, 1:k);  
selected_score = score(:, 1:k);  

% 可视化  
figure;  
plot(cum_contr, 'o-'); % 累积贡献率曲线  
xlabel('主成分序号'); ylabel('累积贡献率');  

figure;  
biplot(coeff(:,1:2), 'Scores', score(:,1:2));

4. 实战案例：Hald水泥问题

4.1 背景与数据

Hald水泥数据集包含13组观测，研究4种化学成分（ $x_1$ ~ $x_4$ ）对水泥热释放量（ $y$ ）的影响。目标是利用PCA解决多重共线性问题。

数据矩阵：

样本	$x_1$	$x_2$	$x_3$	$x_4$	$y$
1	7	26	6	60	78.5
2	1	29	15	52	74.3
…	…	…	…	…	…

4.2 相关系数矩阵分析

计算4个变量的相关系数矩阵：
$\begin{bmatrix} 1.00 & 0.23 & -0.82 & -0.25 \\ 0.23 & 1.00 & -0.14 & -0.97 \\ -0.82 & -0.14 & 1.00 & 0.03 \\ -0.25 & -0.97 & 0.03 & 1.00 \\ \end{bmatrix}$
发现 $x_2$ 与 $x_4$ 高度负相关（ $r = - 0.97$ ），存在严重多重共线性。

4.3 PCA降维步骤

数据标准化：
```
X = zscore([x1, x2, x3, x4]);  
```
计算主成分：
```
[coeff, score, latent] = pca(X);  
```
输出特征值： $\lambda_1 = 2.24, \lambda_2 = 1.58, \lambda_3 = 0.19, \lambda_4 = 0.002$ 。
选择主成分：
- 前两个主成分累积贡献率为 $\approx 95.3\%$ ，保留前2个主成分。

主成分回归：

用主成分得分作为新自变量，拟合回归模型。

Z = score(:, 1:2); % 前两个主成分得分  
model = fitlm(Z, y);

结果对比：
- 普通最小二乘法：回归系数不稳定，部分系数不显著。
- 主成分回归：系数更稳定，均方误差（MSE）更低。

5. MATLAB代码详解

5.1 主成分回归完整代码

clc; clear;  
load sn.txt; % 加载数据（x1~x4, y）  
X = sn(:, 1:4); y = sn(:, 5);  

% 数据标准化  
X = zscore(X);  
y = zscore(y);  

% 计算主成分  
[coeff, score, latent] = pca(X);  
cum_contr = cumsum(latent) / sum(latent);  

% 选择主成分数（例如k=3）  
k = 3;  
Z = score(:, 1:k);  

% 主成分回归  
model_pcr = fitlm(Z, y);  
disp(model_pcr);  

% 对比普通最小二乘法  
model_ols = fitlm(X, y);  
disp(model_ols);  

% 计算均方误差（MSE）  
mse_pcr = model_pcr.MSE;  
mse_ols = model_ols.MSE;  
fprintf('主成分回归MSE: %.4f\n普通回归MSE: %.4f\n', mse_pcr, mse_ols);