含有缺失值特征之间的相关性分析

缺失的原因

方法1 Complete case analysis

假如要分析特征1和特征2之间的相关性,只考虑那些特征1和特征2都没有缺失的样本;

方法2 multiple imputation 多重插值

根据对某个缺失值构造的估计值个数的多少,可以分为单一插补法和多重插补法。
单一插补法:为每一个缺失值构造一个估计值,再对插补估计值后的数据集使用针对完整数据集分析的方法进行统计分析。
比如使用均值填充,但是单一插值扭曲了特征原始的分布,而且由于同一数值的多次出现使得特征的方差偏低,导致估计出现偏差。

多重插补法:主要思想是为每个缺失值插补m个可能的估计值,这些值反映了缺失值的不确定性,这样就形成了m个完整数据集;对每个完整数据集分别使用相同的针对完整数据集的方法来进行分析得到m个分析结果;综合m个插补数据集的结果,得到最终对目标变量的统计推断。

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值