主成分分析（PCA）

h52013141

已于 2023-11-30 16:13:46 修改

阅读量1k

点赞数 31

文章标签： numpy 机器学习 python

于 2023-11-30 16:08:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h52013141/article/details/134713473

版权

主成分分析（PCA）是一种用于数据降维的技术。它通过线性变换将数据转换到新的坐标系统中，使得在新坐标系的第一个坐标（即第一个主成分）具有最大方差，第二个坐标具有第二大方差，依此类推。

PCA的基本步骤

标准化数据：
- 数据标准化是为了使每个特征维度对结果的影响相同。
- 通常，这涉及到减去每个特征的平均值，然后除以标准差。

import numpy as np
# 假设 X 是原始数据
# 1. 数据标准化
X_mean = np.mean(X, axis=0)
X_std = np.std(X, axis=0)
X_normalized = (X - X_mean) / X_std

计算协方差矩阵：
- 协方差矩阵表示数据特征间的相关性。
- 协方差矩阵的计算可以通过 numpy 库的 np.cov 函数实现。

# 2. 计算协方差矩阵
covariance_matrix = np.cov(X_normalized.T)

计算协方差矩阵的特征值和特征向量：
- 这一步是PCA的核心，特征值和特征向量决定了数据的主成分。
- 可以使用 numpy 库的 np.linalg.eig 函数来计算。

# 3. 计算协方差矩阵的特征值和特征向量
eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix)

选择主成分：
- 根据特征值的大小，选择最重要的n个特征向量作为主成分。
- 一般选择的是特征值最大的n个特征向量。

# 4. 选择主成分
# 例如，选择前两个主成分
n_components = 2
indices = np.argsort(eigenvalues)[::-1]
principal_components = eigenvectors[:, indices[:n_components]]

特征值排序

首先，特征值按照大小进行排序。大的特征值对应的特征向量代表了数据中方差较大的方向。
np.argsort 函数返回的是数组值从小到大的索引值。对特征值数组 eigenvalues 使用 np.argsort 将给出排序后特征值的索引。

反转索引

[::-1] 是Python中的切片操作，它将数组反转。因为我们想要从大到小的顺序，所以需要反转 np.argsort 的结果。

选择主成分

n_components 指定了要选择的主成分的数量。
indices[:n_components] 选择了特征值最大的前 n_components 个特征向量的索引。
eigenvectors[:, indices[:n_components]] 则根据这些索引从特征向量矩阵中提取对应的列，即选择了最重要的 n_components 个特征向量作为主成分。

结果

这些步骤完成后，principal_components 包含了数据集的前 n_components 个主成分。这些主成分是降维后数据的基础，它们捕获了数据中最大的方差。

转换到新的坐标系：
- 使用主成分作为基，将原始数据投影到新的坐标系中。
- 这可以通过将数据点与特征向量相乘来实现。

# 5. 转换到新的坐标系
X_pca = np.dot(X_normalized, principal_components)

应用场景

PCA常用于减少数据集的维度，同时尽可能保留原始数据的特性。它在图像处理、语音识别、基因数据分析等领域有广泛应用。

协方差矩阵的数学解释

协方差矩阵在统计学和数据分析中扮演着关键角色，尤其是在理解多个变量之间关系的上下文中。

协方差的定义

协方差 是衡量两个变量之间线性关系的统计量。
对于两个随机变量 ( X ) 和 ( Y )，其协方差定义为：

$\text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)]$

其中， $E$ 是期望值运算符， $\mu_X$ 和 $\mu_Y$ 分别是 $X$ 和 $Y$ 的均值。

协方差的含义

当两个变量的协方差为正时，表明这两个变量随着一个变量的增加而同向增加。
当协方差为负时，表明它们随着一个变量的增加而反向变化。

协方差矩阵

对于一个包含 $N$ 个特征的数据集，协方差矩阵是一个 $\times N$ 的矩阵，其中每个元素 $\text{Cov}(X_i, X_j)$ 代表特征 $X_i$ 和 $X_j$ 的协方差。
矩阵对角线上的元素是每个特征自己的方差，非对角线上的元素是不同特征间的协方差。

矩阵转置（X_normalized.T）

矩阵转置是将矩阵的行转换为列，或将列转换为行的操作。在PCA中，数据转置通常是必要的预处理步骤。

为何需要转置

在PCA中，我们通常处理的数据矩阵 $X$ 以样本为行，特征为列的格式排列。即每一行是一个观测值，每一列是一个特征。
为了计算协方差矩阵，我们需要特征作为行，每个数据点作为列。因此，需要对数据矩阵进行转置。
转置后的矩阵 $X^T$ 使得每一行代表一个特征，每一列代表一个样本。

在PCA中协方差矩阵的作用

PCA 旨在找出数据中最重要的几个主成分，这些主成分捕捉了数据中的最大方差。
通过分析协方差矩阵的特征值和特征向量，PCA 能够确定数据的主成分。特征向量定义了新的坐标轴，而特征值则给出了这些轴的相对重要性。

NumPy中的 `np.linalg.eig` 函数

在数学和数据分析中，特征值和特征向量是理解线性变换的关键概念。np.linalg.eig 函数来自Python的NumPy库，用于计算方阵的特征值和特征向量。

特征值和特征向量的定义

对于给定的方阵 $A$ ，特征向量 $v$ 和对应的特征值 $\lambda$ 满足以下等式：

$\mathbf{v} = \lambda \mathbf{v}$
这里， $A$ 是一个方阵， $\mathbf{v}$ 是一个非零向量， $\lambda$ 是一个标量（特征值）。

特征值和特征向量的意义

特征值和特征向量给出了方阵 $A$ 的一个非常重要的性质：在变换 $A$ 下，向量 $\mathbf{v}$ 仅通过缩放其大小而不改变其方向。
换句话说， $\mathbf{v}$ 是方阵 $A$ 的一个“固有方向”，而对应的特征值 $\lambda$ 是这个方向上的“缩放因子”。

`np.linalg.eig` 函数的应用

在PCA（主成分分析）中，np.linalg.eig 用于找出协方差矩阵的特征向量和特征值。
这些特征向量定义了数据的新坐标系，而特征值则表示在这些坐标轴上的数据方差的大小。
在PCA中，我们通常按照特征值的大小来选择最重要的特征向量，这些向量构成了数据的主成分。

import numpy as np

# 假设 A 是一个方阵
A = np.array([[4, 2], [1, 3]])

# 使用 np.linalg.eig 计算特征值和特征向量
eigenvalues, eigenvectors = np.linalg.eig(A)

# 输出特征值和特征向量
print("特征值:", eigenvalues)
print("特征向量:", eigenvectors)

数据投影到主成分

在主成分分析（PCA）中，数据投影到选定的主成分上是核心步骤之一。这一步骤通过矩阵乘法实现，将原始数据转换到由主成分定义的新坐标系中。

数学原理

假设 $X_{\text{normalized}}$ 是标准化后的数据矩阵，其中每一行代表一个样本，每一列代表一个特征。
$X_{\text{pca}}$ 是投影后的数据，其中包含了主成分分析降维后的数据。
主成分（由特征向量构成）存储在矩阵 $P$ 中，每一列是一个主成分。
投影的数学表达式为：

$X_{\text{pca}} = X_{\text{normalized}} \cdot P$
这里， $X_{\text{normalized}}$ 与 $P$ 的矩阵乘法将原始数据投影到主成分定义的新坐标系中。

投影的作用

这种投影通常用于降维，它保留了数据中最重要的特征（即方差最大的方向）。
在新坐标系中，主成分是正交的，这有助于消除原始特征间的相关性。
投影后的数据可以用于可视化、数据压缩或进一步的数据分析。

代码

import numpy as np

# 假设 X_normalized 是标准化后的数据
# principal_components 是主成分，即选定的特征向量

# 数据投影到主成分
X_pca = np.dot(X_normalized, principal_components)

# 输出投影后的数据
print("投影后的数据:", X_pca)

在这段代码中，使用 np.dot 函数完成了矩阵乘法，将标准化后的数据矩阵 X_normalized 与主成分矩阵 principal_components 相乘，得到投影后的数据 X_pca。这是实现PCA算法的关键步骤之一，用于降维和提取数据中最重要的特征。

关注

31
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
主成分分析（PCA）

协方差是衡量两个变量之间线性关系的统计量。对于两个随机变量 ( X ) 和 ( Y )，其协方差定义为：CovXYEX−μXY−μYCovXYE[(X−μXY−μY)]其中，EEE是期望值运算符，μX\mu_XμX和μY\mu_YμY分别是XXX和YYY的均值。对于给定的方阵AAA，特征向量vvv和对应的特征值λ\lambdaλAvλvAvλv这里，AAA是一个方阵，v。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

h52013141 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。