spss之数据预处理

最新推荐文章于 2024-01-06 17:26:51 发布

monopopo

最新推荐文章于 2024-01-06 17:26:51 发布

阅读量1.3w

点赞数 16

分类专栏： spss 文章标签： spss python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/monopopo/article/details/116752115

版权

目录

问题思考：

二、缺失类型

完全随机缺失(MCAR)

随机缺失（MAR）

非随机缺失（MNAR）

三、缺失值填补的方法

完整观测数据分析

四、缺失值填补的过程

描述缺失值的模式

描述性：估计含有缺失值的变量的平均值、标准差、协方差和相关性矩阵

对数据进行填补

五、案例分析

导入与合并数据

重新编码变量

缺失值情况分析

python方法去除缺失值为80%以上的缺失值

缺失值填充

一、spss对数据进行预处理

问题思考：

1.为什么要进行数据预处理？

基于样本推断总体，样本应当具有代表性
数据缺失导致信息丢失

2.缺失类型？

完全随机缺失
随机缺失
非随机缺失

3.哪些方法可用于缺失值处理？

删除缺失值的记录、观测、个体
填补：中位数填补、均值填补、多重插补

4.缺失值处理的过程/步骤？

二、缺失类型

完全随机缺失(MCAR)

缺失数据/变量与观察到的数据/变量和未观察到的数据/变量均没有关系（缺失与任何变量无关）

数据缺失后，剩余完整的数据任然具有代表性，只是样本量减少，估计精度变小

随机缺失（MAR）

缺失数据/变量与观察到的数据/变量有关，与未观察到的数据/变量无关

非随机缺失（MNAR）

缺失数据/变量与未观察到的数据/变量有关

三、缺失值填补的方法

完整观测数据分析

直接删除缺失的记录/观测/个体

适用于：缺失率较低（0.05）并且假设完全随机缺失的情况

填补：

单值插补

均值填补，中位数填补
EM（Expectation-Maximization）--期望最大化

假设：缺失的数据为随机缺失，缺失与观测数据有关，与本身无关

假设缺失数据的分布（先验分布）并通过迭代最大化（MLE）假设分布的参数（后验分布）

回归（regression）

假设：缺失数据为完全随机缺失

多个线性回归估计值+随机误差

多重插补

优点：插补多个数据，考虑到了数据的波动性（方差），插补数据更加精确，更符合数据的特点

四、缺失值填补的过程

描述缺失值的模式

哪些变量缺失？缺失的比例？缺失的模式？

最低0.47元/天解锁文章

关注

16
点赞
踩
217

收藏

觉得还不错? 一键收藏
0
评论
spss之数据预处理

文章目录目录一、spss对数据进行预处理问题思考：二、缺失类型完全随机缺失(MCAR)随机缺失（MAR）非随机缺失（MNAR）三、缺失值填补的方法完整观测数据分析填补：单值插补多重插补四、缺失值填补的过程描述缺失值的模式描述性：估计含有缺失值的变量的平均值、标准差、协方差和相关性矩阵对数据进行填补五、案例分析一、spss对数据进行预处理问题思考：1.为什么要进行数据预处理？基于样本推断总体，样本应当具有...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。