1. PCA优缺点
- 利用PCA达到降维目的,避免高维灾难。
- PCA把所有样本当作一个整体处理,忽略了类别属性,所以其丢掉的某些属性可能正好包含了重要的分类信息
2. PCA原理
条件1:给定一个m*n的数据矩阵D, 其协方差矩阵为S. 如果D经过预处理, 使得每个每个属性的均值均为0, 则有 S=DTD 。
PCA的目标是找到一个满足如下性质的数据变换:
- 每对不同的新属性的协方差为0,即属性间相互独立;
- 属性按照每个属性捕获的数据方差大小进行排序;
- 第一个属性捕获尽可能多的数据方差;
- 满足正交性的前提下,每个属性尽可能多的捕获剩余方差。
条件2:由于协方差矩阵是半正定矩阵,则其具有非负特征值。令