这部分介绍降维常用的方法。
12. PCA
1. 简要介绍降维技术
可以在已标记的数据上采用降维技术,也可以在未标记的数据上采用降维技术。降维的目标是对输入的数目进行削减,来剔除数据中的噪声并提高机器学习方法的性能。主要有三种降维技术:
a. 主成分分析(PCA)
第一个新坐标轴选择原始数据中方差最大的方向,第二个新坐标轴选择与第一个坐标轴正交且具有次最大方差的方向。一直重复该过程,重复的次数是原始数据中特征的数目。可以发现,大部分方差都包括在最开始的几个新坐标轴中,因而可以忽略剩下的坐标轴,即实现对数据进行降维处理。
b. 因子分析(Factor Analysis)
在观察数据的生成过程中有一些观察不到的因变量,找到隐变量可以实现数据的降维。
c. 独立成分分析(Independent Component Analysis, ICA)
数据是多个数据源的混合观察结果,这些数据源之间在统计上是相互独立的,在PCA中只假设数据是不相关的。利用数据源来进行分析,由于数据源的数目少于观察数据的数目,所以可以实现降维。
在上述三种降维方式中,PCA是最为广泛利用的方法。
2. PCA
优点:降低数据的复杂度,识别重要的特征。
缺点:不一定必须需要,有可能损失有用信息。
适用数据类型:数值型。
利用PCA可以