1多重共线性问题
多元线性回归(MLR)的前提是自变量必须相互独立,但光谱变量之间存在一定程度的相关关系。多重共线性是指线性回归模型中的自变量之间由于存在高度的相关关系,求得回归系数值b不稳定且难于解释,及回归系数对于样本数据的微小变化可能变得非常敏感,使回归系数的值很难精确估计。
减小多重共线性最常用的方法是数据降维,包括特征选择和特征提取(特征变换)两类方法。
特征选择不改变原始特征空间的性质,只从原始空间中选择一部分重要特征,组成一个新的低维空间。
特征选择方法有逐步回归法、遗传算法、模拟退火算法、连续投影方法等。
特征提取指通过将原始特征进行变化,重新生成一个维数更低,各维之间相互独立的特征空间。特征提取方法有主成分分析法(PCA、独立成分分析方法(ICA)、投影追踪等,最常用的特征提取方法是主成分分析(PCA)。
主成分分析基本原理
PCA的中心目的是将数据降维,将原变量进行转换,使少数几个变量是原变量的线性组合,同时哲学变量要尽可能多地表达原变量的数据特征而不丢失信息。PCA把数据变换到一个新的坐标系统中使得数据投影的的最大方差在第一个坐标(成为第一主成分P1),第二大方差在第二个坐标上(第二主成分P2),依此类推,经转换得到的新变量相互正交,互不相关,消除诸多信息中的重叠部分,即消除了变量之间可能存在的多重共线性。