在数据维度很高时,我们会从中提取出一些有用的特征,降低数据处理的维度,方便计算,这个过程也被叫做降维。
一般常用的降维方法有PCA和LDA。
- PCA:非监督降维,降维后数据的方差尽可能的大(方差大,含有的信息量就大)
- LDA:有监督降维,降维后,组内(同一类别)方差小,组间(不同类别之间)方差大
注:对原始数据进行线性变换,比如上面左图的二维数据,x1轴代表年龄,x2轴代表收入,这时候要是按照对角线进行线性变换,二维虽然降到了一维,但是无法解释这个新的一维特征的具体含义。即变换后的数据不具备可解释性。
因此,降维的操作比较适合在高维度下进行,若想要进行有解释性的特征选择,可以用随机森林的重要性或者Lasso回归,带L1正则化的逻辑回归等。
主成分分析PCA
PCA的直观理解
PCA的一般用途:
- 聚类:把复杂的多维数据转为少量数据,易于分簇
- 降维:降低高维数据,简化计算,达到数据降维,压缩,降噪(去掉不太重要的特征)的目的
PCA的作用:
- 将原有的d维数据集,转为k维数据,k<d
- 新生成的k维数据尽可能多的保留原来d维数据的信息
第一个图,投影到对角线上的话,保留的数据信息会多一些。
沿着对角线方向,投影后映射到该对角线上的值要尽可能的分散,这个分散程度就用方差来表示。