3 主成分分析
Principal Component Analysis,PCA。最常用的降维方法。
3.1 怎么来的?
正交属性空间中,如何用一个超平面,对所有样本进行恰当表达?
- 最近重构性:样本点到该平面的距离足够近。要表达就要比较相似,距离近。
- 最大可分性:样本点在平面上的投影尽可能分开。点与点足够区分。
基于这两个性质,可推导出主成分分析的2种等价推导。
假定数据样本进行了中心化(每个值减去均值)。
从最近重构性出发,考虑整个训练集中,原样本点与基于投影重构的样本点之间的距离,对其距离最小化,则可得到:
这就是主成分分析的优化目标。
从最大可分性出发,样本点在新空间中超平面内上的投影是 WTxi ,若所有样本点的投影能尽可能分开,则应该使投影后的样本点的方差最大化。
而投影后点的方差是 ∑i