1、What & Why PCA(主成分分析)
PCA,Principal components analyses,主成分分析。广泛应用于降维,有损数据压缩,特征提取和数据可视化。也被称为Karhunen-Loeve变换
从降维的方法角度来看,有两种PCA的定义方式,方差最大和损失最小两种方式。这里需要有一个直观的理解:什么是变换(线性代数基础)。
但是总的来说,PCA的核心目的是寻找一个方向(找到这个方向意味着二维中的点可以被压缩到一条直线上,即降维),这个方向可以:
- 最大化正交投影后数据的方差(让数据在经过变换后更加分散)
紫色的直线 u1即是关于 x1,x2二维的正交投影的对应一维表示
PCA定义为使绿色点集的方差最小(方差是尽量让绿色所有点都聚在一坨)其中的蓝线是原始数据集(红点)到低纬度的距离,这可以引出第二种定义方式
- 最小化投影造成的损