【面试】介绍一下PCA算法及其过程

Lewiz_124

于 2024-08-30 00:23:22 发布

阅读量1k

点赞数 21

分类专栏： # AI面试文章标签：算法深度学习人工智能 PCA 机器学习面试

本文链接：https://blog.csdn.net/lewiz_124/article/details/141690607

版权

59 篇文章 0 订阅

订阅专栏

面试官: 你能介绍一下PCA算法的过程吗？

PCA（Principal Component Analysis，主成分分析） 是一种用于降维的统计方法，广泛应用于数据预处理、特征提取和数据压缩等场景。PCA通过线性变换将数据投影到新的坐标系中，使得新的坐标系中的各个维度（主成分）是无关的，并且尽可能地保留数据的方差。

目标: PCA的主要目标是通过线性变换将高维数据投影到低维空间中，同时尽可能多地保留数据的方差信息。换句话说，PCA希望找到一个新的坐标系，使得在这个新坐标系中的前几个维度能够解释原始数据中最多的方差。

2.1 数据标准化

目的: 由于不同特征可能具有不同的量纲和数值范围，标准化是必要的步骤，以确保每个特征对结果的影响是均衡的。
操作: 将数据的每个特征减去其均值，并除以其标准差，使得每个特征的均值为0，标准差为1。标准化后的数据矩阵为 $X$ 。
$X_{\text{s}} = \frac{X - \mu}{\sigma}$
其中， $\mu$ 是特征的均值， $\sigma$ 是特征的标准差。

2.2 计算协方差矩阵

目的: 协方差矩阵描述了数据集中不同特征之间的线性关系（即特征之间的相关性）。
操作: 对标准化后的数据矩阵 $X$ 计算协方差矩阵 $\Sigma$ 。
$\Sigma = \frac{1}{n-1} X^T X$
其中， $X$ 是标准化后的数据矩阵， $n$ 是样本数量。

2.3 计算协方差矩阵的特征值和特征向量

目的: 特征值和特征向量帮助我们找到数据中最大方差的方向。特征向量对应于数据在新坐标系中的轴，特征值表示该方向上的方差。
操作: 计算协方差矩阵 $\Sigma$ 的特征值 $\lambda_i$ 和特征向量 $v_i$ 。
$\Sigma v_i = \lambda_i v_i$
其中， $\lambda_i$ 是协方差矩阵的特征值， $v_i$ 是对应的特征向量。

2.4 选择主成分

目的: 根据特征值的大小，选择前 $k$ 个特征值对应的特征向量作为主成分，组成新的低维空间。
操作: 对特征值进行排序，选择前 $k$ 个最大的特征值对应的特征向量。选择的特征向量将构成新的坐标系。
- 排序特征值 $\lambda_1 \geq \lambda_2 \geq \dots \geq \lambda_d$ 。
- 选择前 $k$ 个特征向量 $v_1, v_2, \dots, v_k$ 。

2.5 将数据投影到新的低维空间

目的: 将原始数据投影到由选择的特征向量构成的低维空间中，获得降维后的数据表示。
操作: 用选定的特征向量将原始数据进行线性变换，得到降维后的数据矩阵 $Z$ 。
$\cdot V_k$
其中， $V_k$ 是由前 $k$ 个特征向量构成的矩阵， $Z$ 是降维后的数据矩阵。

3.1 方差解释

方差: PCA的核心思想是保留数据中尽可能多的方差。因此，前 $k$ 个主成分的方差之和占总方差的比重可以用来衡量降维效果。
解释方差: 选取的主成分数量 $k$ 通常基于累积解释方差的比例，例如，当累计方差解释率达到90%或95%时，可以认为选择的主成分数目是合适的。
$\text{Explained Variance Ratio} = \frac{\sum_{i=1}^{k} \lambda_i}{\sum_{i=1}^{d} \lambda_i}$
3.2 数据可视化
可视化: PCA可以用于数据的可视化，将高维数据投影到2D或3D空间，以便进行可视化分析和模式识别。