深入理解PCA（主成分分析）

最新推荐文章于 2024-09-05 23:36:04 发布

白萧琦

最新推荐文章于 2024-09-05 23:36:04 发布

阅读量784

点赞数 10

分类专栏：机器学习文章标签：人工智能算法机器学习

本文链接：https://blog.csdn.net/qq_62110701/article/details/135324422

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

一、什么是PCA？

PCA是一种统计学方法，其目的是通过线性变换将高维数据集转换为低维空间，同时保留尽可能多的信息。通过PCA，我们可以找到数据中最重要的特征，这些特征被称为主成分。主成分是原始特征的线性组合，其具有最大的方差。因此，通过保留前几个主成分，我们可以实现数据的降维。

二、PCA的原理

数据标准化：对于每个特征，我们首先将其标准化为均值为0、方差为1的标准正态分布。这是为了确保每个特征的重要性被正确评估。
协方差矩阵：通过计算数据集的协方差矩阵，我们可以了解各个特征之间的关系。协方差矩阵是一个对称矩阵，其中每个元素表示两个特征之间的协方差。
特征值分解：通过对协方差矩阵进行特征值分解，我们可以得到特征值和对应的特征向量。特征向量表示主成分的方向，而特征值表示其重要性。
选择主成分：根据特征值的大小，我们选择前k个主成分作为新的特征空间。这些主成分是原始特征的线性组合，使得原始数据在新空间中的方差最大化。

三、PCA数学原理

1、协方差矩阵
协方差矩阵描述了数据集中各个特征之间的相关性。对于数据集X，其协方差矩阵C可以表示为：
C = (X - μ)T * (X - μ) / (n-1)
其中，μ表示X的均值，n表示数据点的个数。

2、特征值和特征向量
对协方差矩阵C进行特征分解，可以得到一组特征值和对应的特征向量。特征值表示各个特征向量的方差大小，而特征向量则表示数据在这些方向上的分布。

3、选择主成分
根据特征值的大小，我们可以选择前k个最大的特征值对应的特征向量作为主成分。这些主成分能够解释数据中的大部分方差，从而实现降维。

四、实现PCA

import numpy as np
from sklearn.decomposition import PCA

# 生成模拟数据
X = np.random.rand(100, 5)

# 创建PCA对象，保留2个主成分
pca = PCA(n_components=2)

# 拟合并转换数据
X_pca = pca.fit_transform(X)

# 输出保留的主成分
print("保留的主成分：")
print(pca.components_)

# 输出转换后的数据
print("转换后的数据：")
print(X_pca)