spss之数据预处理


目录

 

问题思考:

二、缺失类型

完全随机缺失(MCAR)

随机缺失(MAR)

非随机缺失(MNAR)

三、缺失值填补的方法

完整观测数据分析

填补:

单值插补

多重插补

四、缺失值填补的过程

描述缺失值的模式

描述性:估计含有缺失值的变量的平均值、标准差、协方差和相关性矩阵

对数据进行填补

五、案例分析

导入与合并数据

重新编码变量

筛选数据

缺失值情况分析

python方法去除缺失值为80%以上的缺失值

缺失值填充



 

一、spss对数据进行预处理

问题思考:

1.为什么要进行数据预处理?

  • 基于样本推断总体,样本应当具有代表性  
  • 数据缺失导致信息丢失​​​​​​​

 2.缺失类型?

  • 完全随机缺失
  • 随机缺失
  • 非随机缺失   

​​​​​​​3.哪些方法可用于缺失值处理?

  • 删除缺失值的记录、观测、个体
  • 填补:中位数填补、均值填补、多重插补

4.缺失值处理的过程/步骤?


二、缺失类型

  • 完全随机缺失(MCAR)

       缺失数据/变量观察到的数据/变量未观察到的数据/变量均没有关系(缺失与任何变量无关)

       数据缺失后,剩余完整的数据任然具有代表性,只是样本量减少,估计精度变小

  • 随机缺失(MAR)

       缺失数据/变量观察到的数据/变量有关未观察到的数据/变量无关

  • 非随机缺失(MNAR)

       缺失数据/变量未观察到的数据/变量有关


三、缺失值填补的方法

  • 完整观测数据分析

     直接删除缺失的记录/观测/个体

     适用于:缺失率较低(0.05)并且假设完全随机缺失的情况

  • 填补:

单值插补

  • 均值填补,中位数填补
  • EM(Expectation-Maximization)--期望最大化

      假设:缺失的数据为随机缺失,缺失与观测数据有关,与本身无关

      假设缺失数据的分布(先验分布)并通过迭代最大化(MLE)假设分布的参数(后验分布)

  • 回归(regression)

      假设:缺失数据为完全随机缺失

      多个线性回归估计值+随机误差

多重插补

      优点:插补多个数据,考虑到了数据的波动性(方差),插补数据更加精确,更符合数据的特点


四、缺失值填补的过程

  • 描述缺失值的模式

       哪些变量缺失?缺失的比例?缺失的模式?

  • 16
    点赞
  • 217
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值