数据降维(PCA、因子分析法)

数据降维原因:常用的数据库中包含百万记录和数千个变量,不是所有变量都相互独立,没有任何关联,为防止变量多重共线性的出现而导致的解空间不稳定的后果。而高维空间本身具备稀疏性,例如十维多元正态分布中仅有2%数据位于某超球面内,一维空间中大约有68%的正态分布变量值位于正负标准差之间,因而如果不做降维会在高维解空间中出现某一重要特征的重复使用造成过拟合的情况。

降维利用变量间的相关结构减少预测变量个数确保预测变量相互独立、提供最小单元框架解释结果。

常用降维方法:主成分分析(PCA:Principal Components Analysis)、因子分析、用户自定义先验

PCA:是将多个变量通过线性组合选出小部分重要变量集合来描述相关结构的统计分析。这些线性组合被称为成分。PCA仅用于处理预测变量不针对目标变量

物理意义:如果初始变量x1,x2,...,xm组成一个m维的坐标系,PCA要做的事是选出主成分表示一个新的坐标系统沿着最大变化的方向旋转原始坐标系得到。

一、主成分分析

步骤:

1、A中Xi做标准化(Xi-均值)/方差 得到数据集B 均值为0 标准差为1 

2、计算标准化数据B的协方差矩阵C

3、为避免变量单位变化从而对协方差变化的影响将其按标准差缩放成相关系数矩阵D

4、对矩阵D特征分解找到特征值不为0的特征作为主成分 

 注意:选取几个主成分?标准:坡度图标准,至少提取3个但不要提取超过四个主成分 3还是4需要做方案对比或用A/Btest实验决定

二、因子分析

通过数据模型分析

为什么因子分析,因为隐含变量的存在使得预测变量间的关联性增大

 

 通过因子旋转导致不同的因子负载进一步可以来解释不确定因子

 因子分析的使用条件判断:

1、KMO(样本充足度的测量值,表示由隐含因子造成的在各个被标准化后的预测变量中有共同变化的比率)判断:KMO小于0.5说明被标准化后的预测变量中有共同变化较低,预测变量之间相关性较低,不适用因子分析。

2、假设检验

判断:检验的零假设为:标准化后相关矩阵是一个单位矩阵,变量之间完全不相关。

测量p值,其p值过小说明零假设的证据不利,变量存在相关性,p大于0.1就没有足够的证据拒绝零假设,因子分析法不适用。

 

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夏曦儿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值