深度了解PCA

最新推荐文章于 2024-08-04 21:00:25 发布

沈南意_

最新推荐文章于 2024-08-04 21:00:25 发布

阅读量906

点赞数 21

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_74405427/article/details/135328212

版权

本文介绍了PCA（主成分分析）的基本原理，包括数据标准化、协方差矩阵和特征值分解，以及如何通过方差和相关系数评价特征。还讨论了PCA的性质，如降维、降噪、过拟合问题和特征独立性。最后提供了Python代码示例，展示了如何使用sklearn库进行PCA操作。

摘要由CSDN通过智能技术生成

一、PCA

二、PCA的原理

三、方差与相关系数

一、PCA

PCA（Principal Component Analysis）是一种常见的数据分析方式，常用于高维数据的降维，可用于提取数据的主要特征分量。

PCA 的数学推导可以从最大可分型和最近重构性两方面进行，前者的优化条件为划分后方差最大，后者的优化条件为点到划分平面距离最小，这里我将从最大可分性的角度进行证明。

二、PCA的原理

数据标准化：对于每个特征，我们首先将其标准化为均值为0、方差为1的标准正态分布。这是为了确保每个特征的重要性被正确评估。
协方差矩阵：通过计算数据集的协方差矩阵，我们可以了解各个特征之间的关系。协方差矩阵是一个对称矩阵，其中每个元素表示两个特征之间的协方差。
特征值分解：通过对协方差矩阵进行特征值分解，我们可以得到特征值和对应的特征向量。特征向量表示主成分的方向，而特征值表示其重要性。
选择主成分：根据特征值的大小，我们选择前k个主成分作为新的特征空间。这些主成分是原始特征的线性组合，使得原始数据在新空间中的方差最大化。

三、方差与相关系数

我们该如何评价某一个特征是否是好的特征呢？

比较简明的方法，通过方差来判断。

方差的概念 $var(X)=\sigma ^2=\frac{1}{n}\sum _{i=1}^{n}(x_i-\overline{x_i})^2$

方差衡量的是样本偏离样本均值的程度；方差越大，样本分布越散；方差越小，样本分布越集中。

四、性质

缓解维度灾难：PCA 算法通过舍去一部分信息之后能使得样本的采样密度增大（因为维数降低了），这是缓解维度灾难的重要手段；
降噪：当数据受到噪声影响时，最小特征值对应的特征向量往往与噪声有关，将它们舍弃能在一定程度上起到降噪的效果；
过拟合：PCA 保留了主要信息，但这个主要信息只是针对训练集的，而且这个主要信息未必是重要信息。有可能舍弃了一些看似无用的信息，但是这些看似无用的信息恰好是重要信息，只是在训练集上没有很大的表现，所以 PCA 也可能加剧了过拟合；
特征独立：PCA 不仅将数据压缩到低维，它也使得降维之后的数据各特征相互独立；

五、代码实现

import numpy as np
from sklearn.decomposition import PCA
 
# 生成模拟数据
X = np.random.rand(100, 5)
 
# 创建PCA对象，保留2个主成分
pca = PCA(n_components=2)
 
# 拟合并转换数据
X_pca = pca.fit_transform(X)
 
# 输出保留的主成分
print("保留的主成分：")
print(pca.components_)
 
# 输出转换后的数据
print("转换后的数据：")
print(X_pca)