目录
描述性:估计含有缺失值的变量的平均值、标准差、协方差和相关性矩阵
一、spss对数据进行预处理
问题思考:
1.为什么要进行数据预处理?
- 基于样本推断总体,样本应当具有代表性
- 数据缺失导致信息丢失
2.缺失类型?
- 完全随机缺失
- 随机缺失
- 非随机缺失
3.哪些方法可用于缺失值处理?
- 删除缺失值的记录、观测、个体
- 填补:中位数填补、均值填补、多重插补
4.缺失值处理的过程/步骤?
二、缺失类型
-
完全随机缺失(MCAR)
缺失数据/变量与观察到的数据/变量和未观察到的数据/变量均没有关系(缺失与任何变量无关)
数据缺失后,剩余完整的数据任然具有代表性,只是样本量减少,估计精度变小
-
随机缺失(MAR)
缺失数据/变量与观察到的数据/变量有关,与未观察到的数据/变量无关
-
非随机缺失(MNAR)
缺失数据/变量与未观察到的数据/变量有关
三、缺失值填补的方法
-
完整观测数据分析
直接删除缺失的记录/观测/个体
适用于:缺失率较低(0.05)并且假设完全随机缺失的情况
-
填补:
单值插补
- 均值填补,中位数填补
- EM(Expectation-Maximization)--期望最大化
假设:缺失的数据为随机缺失,缺失与观测数据有关,与本身无关
假设缺失数据的分布(先验分布)并通过迭代最大化(MLE)假设分布的参数(后验分布)
- 回归(regression)
假设:缺失数据为完全随机缺失
多个线性回归估计值+随机误差
多重插补
优点:插补多个数据,考虑到了数据的波动性(方差),插补数据更加精确,更符合数据的特点
四、缺失值填补的过程
-
描述缺失值的模式
哪些变量缺失?缺失的比例?缺失的模式?