参考来源:https://www.pianshen.com/article/8345891130/
1.PCA(Principal Components Analysis)降维:
PCA作用:用于数据预处理,降低数据维度
PCA目的:去除无用数据,减少计算量
2.PCA为什么要用协方差矩阵以及协方差矩阵的特征值特征向量降维
既然是降维,就要考虑降低哪些维度以及保存哪些维度,一个简单的想法是:
保留重要的,这样可以更好的保留原始数据的信息,以防信息缺失
所以怎样才能知道哪里的信息重要呢?
确定信息的重要性,首先要确定何为信息。
根据信息论的内容,信息是用来衡量不确定性大小的,也就是说越是不确定、未知的事务其包含的信息量越大,比如我们需要区分汽车种类,所拥有的数据包含车标、轮胎样式等,如果给定的数据集中其轮胎样式均是同一个品牌,则我们无法得到任何的区分信息(获得的信息量=0),从而也就无法区分汽车品类,而如果数据集中包含不同的车标,根据车标我们可以很容易的推断出车的种类。
更近一步,如果一个特征其包含的数据全部集中在一个点或者一个范围之内(方差较小 --> 数据点距离均值点不分