下图源于聂卉老师课件3-2:
1. 数据核查与清理
确保数据输入过程的正确无误,是侦错的过程。经过这一过程的数据为Computerized raw data, 其数据格式,内容与排列方式,均与文本资料完全一致,并符合编码系统的编码原则。
目的:维持数据输入过程的正确性。
(1) 标识和删除重复个案
总体思路:利用“标识重复个案”创建标识列标识重复列;利用“选择个案”删除被标识的重复列。
删除重复个案
生成标识重复列Repeat
根据repeat列的值选择特定个案,进行删除
完成。
(2) 逻辑校验
录入的数据因为填写者的疏忽、隐瞒、误填等出现错误,例如移动设备平均使用时间达到30小时。因此对录入的数据需要进行逻辑检验。使用的方法为“采用制表的方式来查看是否存在逻辑问题”。相关命令:Analyze/tables/Customs Tables
首先要分析数据,确定存在逻辑关系的列。如下图所示选中的两列中,若无网络经历(0),那么网络购物消费额度应当为0.
通过定制表查出异常数值。
选中具有关系的两列作为行列值,
在报告中可以发现,否列的值应当全部为0,但是出现了1,说明出现了逻辑错误数据。
接下来需要删掉这些记录:
再定制表时可以发现,基于这一逻辑关系的错误列已经被删除:
2.数据的整备
在甄错的基础上,对数据进行进一步完善,为数据整备。
(1) 遗漏值处理
利用替换缺失遗漏值进行遗漏值处理:
替换遗漏值的方法如下所示有多种:
A. Series means: 表示用整个序列的均值作为替代
B. Mean of nearby points:表示利用邻近点的均值替代
C. Median of nearby points:表示利用邻近点的中位数作为替代
D. Linear interpolation: 线性差值法,用缺失值前后两点数据的某种线性组合进行填补,是一种加权平均。
E. Linear trend at point:为线性趋势法,表示利用回归拟合线的拟合值作为替代值。
使用中应当注意:如下图所展示的五类补全“课堂焦虑”的方法,可以发现“临近点平均值”、“临近点中间值”、“线性插值”都不能补全一、二的值,因为这几种方法需要临近点不为空。
(2) 偏离值
分析下图所示的属性中是否出现偏离值:
分析思路1-频率统计
查看该字段的值是否在正常范围(0~24)内。因此,可以使用分析中描述性统计的频率统计:
可以得到下述结果:
分析:可以看出在均值为4.19,标准差为4.243的基本统计量下,30显然是一个outlier,确切的讲是个Extreme,极端值,应当引起特别关注。
分析思路2-箱线图
可以发现分析思路1依赖于常识,只在部分情况实用。另一种具备普适性的方法是使用箱线图:距离盒长的1.5倍以上被认为是偏离值;距离盒长3倍以上为极端值;极端值与偏离值越多,代表偏离情形越严重。
下图源于聂卉老师课件3-2:
SPSS绘制步骤:
拓展-双变量的偏离值检验
有的时候,我们需要将样本分类后,比较感兴趣数据的分布情况。
任务:将男生和女生上网时间的差异进行比较 名义变量(性别)-尺度变量(上网时间)
分析:
- 男生和女生上网时间的分布差异不大。男生平均时间为3.70小时,女生为4.61小时。
- 女生数据分布略分散,表现在标准差男生为2.494,女生为5.459,箱线图也表明部分女生上网时间比较长。但从偏离值中发现,女生群体中出现一个极端值,54,不合常理,需关注,可能是错误输入,该值影响女生样本的各项描述统计值,建议查验,剔除后,再分析。
分析思路3-界外值
所谓界外值,即绘制极值表,查看极值个案及其数值,观察极值距离是否合理。
总结
确定偏离值时,一般需要进行多个图表综合分析,得到最终结论。就上网时间分析,可以综合使用箱线图、频率分布图、极值表等等进行分析。