实际应用场景下,面对多种数据降维方法,我们应该清楚地了解各降维方法的原理,熟知其优劣,将其合理地应用于需处理的问题中。下面,将从实际应用的角度,对各降维算法逐个进行优劣分析。
PCA
优点:
- 能够从数据集中提取新的特征(原始特征的线性组合),并且这些特征能够最大程度捕捉数据集中方差较大的特征,同时提取的新特征之间彼此不相关。一些预测模型要求预测变量之间无相关性(弱相关性),以便得到稳定的数值解。
缺点:
- 非监督的方法,仅捕捉了数据集方差较大的特征,未考虑响应变量,可能利用PCA提取的数据特征与响应变量无关。
- 预测变量的测量标度要求相同(因为PCA会捕捉变异大的预测变量),并且数据分布相同(数据无偏)。所以在使用进行PCA之前,应该先对有偏的变量进行变换(Box-Cox变换),然后对变量进行中心化和标准化(变换到同一测量标度)。
LDA
线性判别分析(Linear Discriminant Analysis)作为一种监督式的降维方法,同时也用作分类器,它主要思想是:使得对原空间进行投影运算后,类间的样本点数据分布间隔大,而类内样本点数据分布方差小。
优点:
- 作为有监督的降维方法,它考虑了响应变量的作用,会得到能够区分响应变量的新的特征(也是原始特征的线性组合)。
- 由于新转化得到的数据为 X′=P⋅X X ′ = P ⋅ X ,P向量中的这些值的大小可以被理解为每一个预测变量对样本分类的贡献大小,故具有一定的解释性。
缺点:
- 由于涉及协方差矩阵的求逆运算,这意味着样本量要大于变量个数,且预测变量之间必须是相互独立的。(【样本数:特征数】 这个比值低于5时,使用LDA效果会较差)。
- 不适合对非高斯分布的样本进行降维(由于涉及到由样本计算总体均值和方差的估计)。
- 优于矩阵计算时候的数学优化,使得降维后的数据维度小于等于K-1。(K为类别个数)
- 需要对数据进行严格地预处理。标准化预测变量并且移除近零方差变量。
PLS(偏最小二乘法)
PLS作为一种监督式的降维方法,擅长于处理变量之间存在的强相关关系。
提出背景: PLS(偏最小二乘法)来解决那些存在相关预测变量且希望使用线性回归来加以解决的问题。
- 如果预测变量之间存在强相关关系,那么普通的最小二乘法的解将变得非常不稳定。同时,当预测变量个数大于观测值的个数时,最小二乘法也无法得到SSE最小的唯一的回归系数的解。
- 使用PCA降维再使用回归分析,由于PCA降维后得到的新的预测变量之间的确不相关,但是PCA无法捕捉与响应变量的关系。
核心思想:
- 一种监督性的降维方法。
- 预测变量的PLS线性组合最大化其与响应变量的协方差。即PLS在寻找成分时,不仅要最大程度地概括预测变量的变异性,同时还要使得这些成分与响应变量的相关系数达到最大。
实际应用,需要注意的地方:
- 数据必须经过预处理,如数据中心化和标准化(保证同一量纲);
- 需要通过交叉验证(或其它重抽样的方式)来确定最优成分数;
- 变量投影重要性(PLS可以直观给出变量重要性)。