【数学建模】主成分分析（PCA）详解：从理论到实践的全面指南

Puszy

已于 2025-04-19 14:10:23 修改

阅读量1.8k

点赞数 38

文章标签：数学建模 python 机器学习

于 2025-02-26 21:11:46 首次发布

本文链接：https://blog.csdn.net/qq_74303061/article/details/145888350

版权

请添加图片描述

💕 个人主页： Puszy-CSDN博客💕

🎉 欢迎关注：👍点赞 📣留言 😍收藏 💖 💖 💖 山以险峻成其巍峨，海以奔涌成其壮阔。 –– 《人民日报》

🌈🌈🌈往期内容精选：

💖【数学建模】数据拟合与插值技术全解析：从线性插值到Logistic模型实战-CSDN博客
 💖【数学建模】熵权法——基于2021全国大学生数学建模C题供应商评价数学建模实战-CSDN博客
 💖基于PyTorch的MLP模型的MNIST手写数字识别的Python代码-CSDN博客

💖引言

在数据科学和经济学研究中，我们常面临高维数据（如各省市的GDP、消费水平、固定资产投资等指标）的分析难题。高维数据不仅增加了计算复杂度，还可能存在多重共线性和信息冗余。主成分分析（PCA）通过降维技术，将多个相关变量转化为少数几个独立的主成分，保留数据核心信息，简化分析流程。例如，通过PCA可从20个经济指标中提取4个主成分，解释85%以上的原始数据方差，助力决策者快速识别区域经济差异。

📚一、主成分分析（`PCA`）

🚀1.1、概念

PCA（Principal Components Analysis）即主成分分析技术[1]，又称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。在统计学中，主成分分析PCA是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用于减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。

🚀1.2、应用场景

数据降维：通过正交变换保留高方差主成分，将高维数据映射至低维空间，实现信息高效浓缩，便于可视化，理解数据特征。
噪声消除：剔除低方差主成分（通常为尾部成分），过滤噪声与冗余信息，保留数据核心特征。
多重共线性消除：当多个特征之间存在较高的相关性时，生成不相关的主成分，解决共线性问题，增强模型鲁棒性。

🚀1.3、使用条件

任何方法都有适用条件，PCA也不例外。

异常值考虑：PCA基于数据的方差和协方差来确定主成分的方向。异常值会极大地影响数据的方差和协方差结构，导致主成分方向偏移，无法准确反映数据的真实结构。
线性程度检验（二选一即可）：
- KMO检验：KMO值需 > 0.6（0.8-0.9为理想范围）。
- Bartlett球形检验：需拒绝原假设（P值<0.05），表明变量间存在显著相关性。

注意事项：PCA适合处理线性结构数据，若数据存在复杂非线性关系，需结合核方法（Kernel PCA）或者考虑使用t-SNE等降维方法。

📚二、数学原理

1、假设有 n 个样本，m 个指标，则可构成大小为 n × n 的样本矩阵 x：

$\mathbf{x} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1m} \\ x_{21} & x_{22} & \cdots & x_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nm} \end{bmatrix} = (\mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_m )$

2、对数据进行列标准化后，求协方差矩阵：
- 标准化

按列计算均值：
$\quad \bar{x}_j = \frac{1}{n} \sum_{i=1}^{n} x_{ij},$
标准差：
$\quad \quad S_j = \sqrt{\frac{\sum_{i=1}^{n} (x_{ij} - \bar{x}_j)^2}{n-1}}$
标准化数据：
$\quad \quad X_{ij} = \frac{x_{ij} - \bar{x}_j}{S_j}$
公式原始样本矩阵经过标准化变化：
$\quad \mathbf{X} = \begin{bmatrix} X_{11} & X_{12} & \cdots & X_{1n} \\ X_{21} & X_{22} & \cdots & X_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ X_{n1} & X_{n2} & \cdots & X_{nm} \end{bmatrix} = (\mathbf{X}_1, \mathbf{X}_2, \cdots, \mathbf{X}_m)$

计算协方差

计算标准化样本的协方差矩阵：
$\mathbf{R} = \begin{bmatrix} r_{11} & r_{12} & \cdots & r_{1m} \\ r_{21} & r_{22} & \cdots & r_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ r_{m1} & r_{m2} & \cdots & r_{mm} \end{bmatrix}$

$r_{ij} = \frac{1}{n-1} \sum_{k=1}^{n} (X_{ki} - \bar{X}_i)(X_{kj} - \bar{X}_j) = \frac{1}{n-1} \sum_{k=1}^{n} X_{ki} X_{kj}$

也可以直接计算：
$\mathbf{R} = \frac{\sum_{k=1}^{n} (x_{ki} - \bar{x}_i)(x_{kj} - \bar{x}_j)}{\sqrt{\sum_{k=1}^{n} (x_{ki} - \bar{x}_i)^2 \sum_{k=1}^{n} (x_{kj} - \bar{x}_j)^2}}$

3、计算 R 的特征值和特征值向量：
-特征值
$\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0,$
$\quad \mathbf{R} \text{是半正定矩阵，且} \text{tr}(\mathbf{R}) = \sum_{k=1}^{p} \lambda_k = p$
表示矩阵的迹等于其特征值之和，且这个和等于 p。

R 是一个半正定矩阵，其特征值不可能为负。

$\text{特征向量：} \mathbf{a}_1 = \begin{bmatrix} a_{11} \\ a_{21} \\ \vdots \\ a_{p1} \end{bmatrix}, \mathbf{a}_2 = \begin{bmatrix} a_{12} \\ a_{22} \\ \vdots \\ a_{p2} \end{bmatrix}, \cdots, \mathbf{a}_p = \begin{bmatrix} a_{1p} \\ a_{2p} \\ \vdots \\ a_{pp} \end{bmatrix}$

4、计算主成分贡献率率以及累计贡献率：

$\text{贡献率} = \frac{\lambda_i}{\sum_{k=1}^{p} \lambda_k}\quad$
$\text{累加贡献率} = \frac{\sum_{k=1}^{i} \lambda_k}{\sum_{k=1}^{p} \lambda_k}, \quad (i = 1, 2, \cdots, p)$

注意：相关系数是协方差的标准化形式，用于消除量纲的影。

5、写出主成分：

一般取累计贡献率超过 90% 的特征值所对应的第一、第二、…、第 m（m ≤ p ）个主成分。

$\text{第 } i \text{ 个主成分：} F_i = a_{1i} X_1 + a_{2i} X_2 + \cdots + a_{pi} X_p$

📚三、案例分析：各省市自治区经济发展

本文以各省市自治区经济发展数据如下图作为案例，分析PCA降维方法的使用。为方便复现结尾提供了数据下载链接。

在这里插入图片描述

🚀3.1、结果展示

📘3.1.1、使用`python`计算代码过程

检验结果和协方差矩阵展示，运行第一个代码块即可得到结果

在这里插入图片描述

主成分分析后的结果展示，运行代码块2后可以得到

在这里插入图片描述

📘3.2.2、使用`sklearn`库代码简化过程

请添加图片描述

🚀3.2、代码展示

📘3.2.1、使用`python`计算代码过程代码展示

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity
from factor_analyzer.factor_analyzer import calculate_kmo
from sklearn.preprocessing import StandardScaler


# 读取数据
data = pd.read_excel('./data/表1 各省市自治区经济发展数据.xlsx')
data.dropna(inplace=True)
data
# 数据预处理
data = data.drop(['Unnamed: 0'], axis=1)
# 适合性检验（Bartlett && KMO
df_check = data
# Bartlett 球状检验 
chi_square_value, p_value = calculate_bartlett_sphericity(df_check)
print("Bartlett=", chi_square_value, p_value)
# KMO检验(>0.6为好，越靠近1越好)
kmo_all, kmo_model = calculate_kmo(df_check)
print("KMO=", kmo_all)
# 主成分分析
#标准化
data = data.apply(lambda x: (x - x.mean()) / x.std(), axis=0)
scaler=StandardScaler()
nor_data=scaler.fit_transform(data)
#相关系数矩阵
nor_data= pd.DataFrame(nor_data)
nor_cor_data=nor_data.corr()
nor_cor_data

#求相关系数矩阵的特征值和特征向量
nor_cor_data=nor_cor_data.values
featValue, featVec=  np.linalg.eig(nor_cor_data.T)  #求解系数相关矩阵的特征值和特征向量
featValue, featVec
#对特征值进行排序
featValue = sorted(featValue)[::-1]
print('特征值',featValue)
#求特征值的贡献度 
print(np.sum(featValue))
gx = featValue/np.sum(featValue)
print('贡献度',gx)
#求特征值的累计贡献度
lg = np.cumsum(gx)
print('累计贡献度',lg)
#选出主成分
#设置阈值
line=0.95
k=[i for i in range(len(lg)) if lg[i]<=line]
k = list(k)
print('选择主成分的索引',k)
#选出主成分对应的特征向量矩阵
selectVec = np.matrix(featVec.T[k]).T
selectVec=selectVec*(-1)
print('选择主成分的特征向量矩阵',selectVec)
#求主成分的得分
finalData = np.dot(nor_data,selectVec)
print('主成分得分',finalData)

📘3.2.2、使用`sklearn`库代码简化过程

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 读取数据
data = pd.read_excel('./data/表1 各省市自治区经济发展数据.xlsx')
data.dropna(inplace=True)

# 数据预处理
data = data.drop(['Unnamed: 0'], axis=1)



# 标准化
scaler = StandardScaler()
nor_data = scaler.fit_transform(data)

# 主成分分析
pca = PCA()
pca.fit(nor_data)

# 输出结果
print("特征值：", pca.explained_variance_)
print("贡献度：", pca.explained_variance_ratio_)
print("累计贡献度：", pca.explained_variance_ratio_.cumsum())

# 选择主成分（假设选择累计贡献度达到 95% 的主成分）
line = 0.95
k = [i for i, cum_var in enumerate(pca.explained_variance_ratio_.cumsum()) if cum_var <= line]
print("选择主成分的索引：", k)

# 获取主成分的特征向量
selectVec = pca.components_[:len(k)]
print("选择主成分的特征向量矩阵：\n", selectVec)

# 计算主成分得分
finalData = pca.transform(nor_data)[:, :len(k)]
print("主成分得分：\n", finalData)