在这里插入代码片
在日常工作及科学研究中,当处理样本较大的群体调查时,由于多种原因可能会导致所收集的数据不完整,这时的初始数据中就含有缺失值。缺失值带来许多负面影响。比如:含缺失值的观测可以看作是正常观测的系统误差,就会导致计算结果不准确;获得的信息比预期要少,这导致计算统计量的精度低;许多统计过程的假设是基于完整数据的,数据不完整将导致计算过程无法进行。
在SPSS中可以采用多种方式对缺失值进行灵活处理。比如, 在各个统计析过程里加入处理缺失值的选项,或者在分析通过缺失值替换过程前先处理缺失值。本章将介绍专门的缺失值分析过程。
11.1 调查问卷缺失值处理方法
缺失值是统计人员和数据采集人员所不愿见到的,但也是无法避免的。在大型的数据采集任务中,即使有着非常严格的质量控制,含有缺项、漏项的记录也可能很容易地达到10%。进行敏感问题的调查时,缺失值问题就更加突出了,比如问卷中涉及了家庭收入、婚外性伴侣问题时,许多受访者都会以漏填来避免尴尬。
有些统计分析方法采取将含缺失值的观测记录直接删除的做法,当缺失值较少时,这有太大问题;但当缺失值数量较多时,这样做会直接丢失大量的信息,并有可能会导致错误结论,故而进行更为系统的缺失值分析是非常有必要的。
11.1.1 缺失值的类型与处理方法
数据的缺失是有一定规律的, 其缺失方式大致可以分为以下3种:完全随机缺失(Missing
Completely At Random, MCAR) 、随机缺失(Missing At Random, MAR) 和非随机缺失(Missing AtNon-Rand