当执行主成分分析(PCA)降维时,具体的步骤如下:
1.数据准备:
2.数据集:有一个包含多个样本和特征的数据集。每个样本都是一个向量,每个特征都是向量的一个维度。
3.数据中心化:计算每个特征的均值,然后将每个样本中的每个特征减去相应的均值,以实现数据中心化。
4.计算协方差矩阵:
5.协方差:计算数据集中每对特征之间的协方差。协方差矩阵是一个对称矩阵,其中每个元素表示相应特征之间的协方差。
6.协方差矩阵的计算:假设有n个特征,协方差矩阵C的元素c(i, j)为第i个特征和第j个特征的协方差。对于数据集X,协方差矩阵C的计算公式为:
[ C = \frac{1}{n-1} \times X^T \times X ]
这里,(X^T)表示X的转置。
7.特征值分解:
8.特征值和特征向量:通过对协方差矩阵进行特征值分解,得到特征值(eigenvalues)和相应的特征向量(eigenvectors)。
9.特征值和特征向量的计算:对于协方差矩阵C,解下面的方程得到特征值(\lambda)和对应的特征向量v:
[ C \times v = \lambda \times v ]
10.选择主成分:
11.排序:按照特征值的大小对特征向量进行排序。特征值越大,对应的特征向量所表示的方向对数据的解释能力越强。
12.选择主成分数量:根据需要降低的维度,选择前k个特征值对应的特征向量,构成一个转换矩阵W(由列向量组成)。
13.数据投影:
14.新空间:将原始数据集X乘以转换矩阵W,得到新的数据集X'。新的数据集X'的每一行对应一个样本,每一列对应一个主成分。
[ X' = X \times W ]
通过这些步骤,你就得到了在主成分方向上的投影,实现了对数据的降维。这新的特征向量是原始特征的线性组合,它们被称为主成分,而新的数据集中的每个样本都是在主成分方向上的投影。这使得你可以在更低维度上进行分析,同时尽量保留原始数据中的方差,从而最大限度地保留了信息。