PCA能做的事其实很有限,那就是:降维。越降维,维度就会越有意义。
下面说明PCA做法
首先这里有n行样本,每行样本有m个特征,我们想把它压缩成k个特征。
然后求出每列的均值,然后用每列减之。
然后求这个矩阵的列协方差矩阵(m*m的矩阵了)。
然后求这个协方差矩阵的特征值,一共m个。
我们挑取前k个,算出其特征向量,组成m*k的矩阵。
然后用被减去均值的矩阵乘之,就是最后的结果。
最后就是这样的算法。
PCA能做的事其实很有限,那就是:降维。越降维,维度就会越有意义。
下面说明PCA做法
首先这里有n行样本,每行样本有m个特征,我们想把它压缩成k个特征。
然后求出每列的均值,然后用每列减之。
然后求这个矩阵的列协方差矩阵(m*m的矩阵了)。
然后求这个协方差矩阵的特征值,一共m个。
我们挑取前k个,算出其特征向量,组成m*k的矩阵。
然后用被减去均值的矩阵乘之,就是最后的结果。
最后就是这样的算法。