SPSS调查问卷缺失值或无效数据如何判断和替换?

     在SPSS中如果数据包含缺失值,会导致具体变量计算和分析时实际有效样本量减少,不管是pairwise delete还是listwise delete的缺失值处理方法。另外,如果用Amos做结构方程模型,分析变量存在缺失值的话拟合指数会报告不全(如缺失GFI、AGFI);在用Mplus等软件做某些模型时,数据存在缺失值的话会出现不能运行或某些估计法不适用的情况。因此,处理缺失值是非常重要的环节。

    缺失值的处理大体上有两种方法:第一,删除有缺失值的个案;第二,缺失值替换。哪一种方法好呢?

    如果样本量本身很大,那么删除个案法影响不大;但如果样本量不是很大,而存在缺失值的变量又很多,删除法会使样本量明显减少,对研究不利。那是不是缺失值替换就好呢?也不尽然。因为如果某个变量存在比较多的缺失值,用均值替换显然对结果影响很大。此外,如果一个个案本身有多个缺失指标,比如调查问卷中有10%以上的题目存在缺失值,那么将这个个案的问卷数据判断为无效个案会更好。

    这里又涉及到一个问题,缺失值比例多大可以认定为无效数据呢?个人认为,单纯从数量的角度来看,一个个案有10%以上的指标存在缺失值的话就可以判断该个案数据无效。但有时候我们不能笼统看缺失值的数量和比例,还要看缺失值的分布问题,例如心理学、教育学、管理学的问卷或量表是分多个维度的,如果缺失值零星分散于不同的维度,那么较大比例的缺失值可能对整体个案数据影响不大;但如果缺失值集中于某个维度或一两个维度,简单说,同一个维度中有多个缺失值甚至整个维度都缺失数据,那么比例较小的缺失值也可以导致整个维度无效,以至于整个个案样本数据无效。

     那么,在SPSS中缺失值的处理是如何操作呢?

      首先,在SPSS中,我们如何判断整个样本数据中有多少个变量或题目存在缺失值,以及有多少个个案的数据存在缺失值,每个个案存在缺失值的变量个数是多少? 方法其实很简单,采用SPSS的“统计个案内数值个数”功能即可。

     其次,如何进行缺失值的替换?SPSS的“转换”功能子菜单下有个“替换缺失值”功能,其中有序列均值替换、线性插补等替换方法。

     值得注意的是,如果是问卷、量表的题目存在缺失值,那么不能简单的用题目均值来替换,而应该用计分方法的中间值替换,例如1-5的五点计分方法可以用3来替换题目的缺失值。那如果是偶数等级的计分方法(如4点计分法)呢,因为没有中间计分等级?此时可以根据题目之间的关联性或逻辑关系,进行主观判断,或者用回归的方法进行预测,取靠近某个等级(例如靠近2而不是3)的整数数值进行替换。就一些复杂的研究来说,现在更多的学者采用多重插补法来替换缺失值。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值