数据降维原因:常用的数据库中包含百万记录和数千个变量,不是所有变量都相互独立,没有任何关联,为防止变量多重共线性的出现而导致的解空间不稳定的后果。而高维空间本身具备稀疏性,例如十维多元正态分布中仅有2%数据位于某超球面内,一维空间中大约有68%的正态分布变量值位于正负标准差之间,因而如果不做降维会在高维解空间中出现某一重要特征的重复使用造成过拟合的情况。
降维是利用变量间的相关结构来减少预测变量个数、确保预测变量相互独立、提供最小单元框架解释结果。
常用降维方法:主成分分析(PCA:Principal Components Analysis)、因子分析、用户自定义先验
PCA:是将多个变量通过线性组合选出小部分重要变量集合来描述相关结构的统计分析。这些线性组合被称为成分。PCA仅用于处理预测变量不针对目标变量。
物理意义:如果初始变量x1,x2,...,xm组成一个m维的坐标系,PCA要做的事是选出主成分表示一个新的坐标系统沿着最大变化的方向旋转原始坐标系得到。
一、主成分分析
步骤:
1、A中Xi做标准化(Xi-均值)/方差 得到数据集B 均值为0 标准差为1
2、计算标准化数据B的协方差矩阵C
3、为避免变量单位变化从而对协方差变化的影响将其按标准差缩放成相关系数矩阵D
4、对矩阵D特征分解找到特征值不为0的特征作为主成分
注意:选取几个主成分?标准:坡度图标准,至少提取3个但不要提取超过四个主成分 3还是4需要做方案对比或用A/Btest实验决定
二、因子分析
通过数据模型分析
为什么因子分析,因为隐含变量的存在使得预测变量间的关联性增大
通过因子旋转导致不同的因子负载进一步可以来解释不确定因子
因子分析的使用条件判断:
1、KMO(样本充足度的测量值,表示由隐含因子造成的在各个被标准化后的预测变量中有共同变化的比率)判断:KMO小于0.5说明被标准化后的预测变量中有共同变化较低,预测变量之间相关性较低,不适用因子分析。
2、假设检验
判断:检验的零假设为:标准化后相关矩阵是一个单位矩阵,变量之间完全不相关。
测量p值,其p值过小说明零假设的证据不利,变量存在相关性,p大于0.1就没有足够的证据拒绝零假设,因子分析法不适用。