主成分分析(PCA)介绍
PCA也被叫做卡尔胡宁-勒夫转换(KLT),是一种用户在高维空间发现模式的技术。PCA常被用于探索和可视化高纬度数据集。PCA可以压缩数据,也就是所谓的数据降维。数据降维是指在保留重要信息的同时消除那些“无用信息量的信息”。PCA关注的是线性相关性,如果一个数据矩阵的列空间的秩小于特征总数,那么多数特征就是几个关键的特征的线性组合,这些多数的特征是对空间以及计算能力的浪费,因为它们包含的信息可以从关键的特征推导出来,所以为了避免这种情况,PCA就是试图将这些数据挤压到一个维度大大小于原空间的线性子空间。
PCA的核心思想是:使用一些新的特征代替冗余特征,这些新特征能恰当地总结初始空间中包含的信息。
关于矩阵列空间以及秩可以看这篇文章
https://www.jianshu.com/p/15572fa072cf
如图a,数据点均匀的分布在两个特征上,在这个例子,列空间是满秩的。而有些特征是其他特征的线性组合,如图b,特征f1可以由f2得到,它是f2和一个标量的乘积。在这里我们称点团的本征维数为1,因为一个特征可以得到另一个特征。
但是实际上,完全相关的特征是很少见的,几乎不会出现,更多的情况是像图C一样