主成分分析PCA

已于 2024-06-16 13:20:37 修改

阅读量942

点赞数 17

文章标签：信息可视化

于 2024-06-16 13:18:30 首次发布

本文链接：https://blog.csdn.net/2202_76097539/article/details/139607118

版权

机器学习中的主成分分析（PCA，Principal Component Analysis）是一种常用的非监督学习算法，主要用于数据降维和特征提取。以下是关于PCA的详细解释：

一、PCA的基本概念和原理

1、概念：PCA是一种统计分析方法，旨在通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，这些新的变量称为主成分。PCA通过减少数据的维度，同时保留数据中的大部分信息，使得数据更易于理解和可视化。

2、原理：PCA的核心思想是通过线性变换将原始数据投影到新的坐标系，这个新的坐标系是由数据的主成分构成的。主成分是指数据的线性组合，它们能够最大化地保留原始数据中的方差。在投影过程中，PCA会尽可能保留数据的主要特征，同时忽略那些对结果影响较小的特征。

二、PCA的主要步骤

1、数据预处理：首先，对数据进行标准化处理，即减去均值并除以标准差，以消除量纲的影响。

2、计算协方差矩阵：计算标准化后数据的协方差矩阵，以衡量各特征之间的相关性。

3、特征分解：对协方差矩阵进行特征分解，得到特征值和特征向量。特征值表示主成分的重要性，而特征向量则表示主成分的方向。

4、选择主成分：根据特征值的大小选择前k个主成分，这些主成分能够保留数据中的大部分信息。

5、投影数据：将原始数据投影到选定的主成分上，得到降维后的数据。

三、简单的PCA代码例子

鸢尾花数据集（load_iris），是一个四维数据集，每个维度代表一个特征。我们使用PCA将其降维到二维，以便我们可以使用散点图进行可视化。

from sklearn.decomposition import PCA  
from sklearn.datasets import load_iris  
import matplotlib.pyplot as plt  
  
# 加载鸢尾花数据集信息
iris = load_iris()  
X = iris.data  
y = iris.target  
  
# 初始化PCA对象，设置保留2个主成分  
pca = PCA(n_components=2)  
  
# 对数据进行拟合和转换  
X_pca = pca.fit_transform(X)  
  
# 可视化结果  
plt.figure(figsize=(8, 6))  
colors = ['red', 'blue', 'green']  
for i in range(len(iris.target_names)):  
    plt.scatter(X_pca[y == i, 0], X_pca[y == i, 1], alpha=0.8, color=colors[i],  
                label=iris.target_names[i])  
plt.legend(loc='best', shadow=False, scatterpoints=1)  
plt.title('PCA of IRIS dataset')  
plt.show()  
  
# 方差比（即每个主成分解释的方差比例）  
print("Explained variance ratio: ", pca.explained_variance_ratio_)

代码生成的结果是一个二维散点图，其中每个点代表鸢尾花数据集中的一个样本。原始数据集有四个特征，但通过PCA降维后，每个样本仅用两个主成分（即两个新的综合特征）来表示。这两个主成分是通过PCA算法找到的原数据集中方差最大的两个方向，它们能够最大程度地保留原始数据集中的变异性。

在可视化结果中，不同颜色的点代表不同的鸢尾花种类。由于PCA是无监督学习，它在降维过程中并不知道样本的标签信息，但降维后的数据仍然保持了类别间的可分性，这使得在二维平面上可以清晰地看到不同种类的鸢尾花在空间中的分布情况。使得不同种类的鸢尾花在低维空间中仍然可以被区分开来。同一种类的点倾向于聚集在一起，而不同种类的点相对分散，说明PCA降维对于后续的分类任务是有帮助的。

结果展示了PCA降维后数据的分布情况，以及不同类别数据之间的可分性。这有助于我们理解数据的内在结构，并为后续的分类或聚类任务提供直观的参考。

四、PCA的优缺点

优点：
- 降低数据的复杂性，识别最重要的多个特征。
- 使得数据集更易使用，降低算法的计算开销。
- 去除噪声，使得结果更容易理解。
- 计算方法简单，主要运算是特征值分解，易于实现。
缺点：
- 可能损失有用信息，因为PCA只保留数据的最大方差方向。
- 主成分各特征维度的含义具有一定的模糊性，不如原始特征直观。