r语言插补法_R语言高级方法进行缺失数据多重插补案例演示

当我们在数据集中缺少值时,重要的是考虑为什么它们会丢失以及它们对分析的影响。有时忽略丢失的数据会降低功耗,但更重要的是,有时它会使答案有偏差,并有可能误导错误的结论。因此,重要的是要考虑丢失的数据机制是什么,以便对其进行处理。 Rubin(1976)区分了三种类型的误报机制:完全随机缺失(MCAR)Missing completely at random:当可以将缺少值的案件视为所有案件的随机样本时;在实践中很少发生MCAR

随机丢失(MAR)Missing at random :以我们拥有的所有数据为条件时,任何剩余的丢失都是完全随机的;也就是说,它不依赖于某些缺少的变量。因此,可以使用观察到的数据对缺失进行建模。然后,我们可以对可用数据使用专门的缺失数据分析方法,以纠正缺失的影响。

非随机丢失(MNAR)Missing not at random:当数据既不是MCAR也不是MAR时。这种情况通常很难处理,因为它将需要对缺失模式进行强有力的假设。

缺失数据的常见处理方法人们尝试处理丢失数据的一种常见方法是删除所有缺少值的情况。这种方法称为完整案例分析(CC:Complete cases)。但是,CC仅在数据为MCAR时有效。

另一种方法是多重插补(MI:multiple imputation),这是一种 (monte carlo) 蒙特卡洛方法,它模拟多个值以插补(填充)每个缺失值,然后分别分析每个插补数据集,最后将结果汇总在一起。我们多次估算缺失的数据,以解决我们对缺失数据的真实(未知)值的不确定性。

在处理示例数据集时,我们对多重插补更加满意。从理论上讲,多重插补可以处理所有三种类型的缺失。但是,执行多重插补通常不适合MNAR情况。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值