SPSS-数据的检核与整备

下图源于聂卉老师课件3-2:
在这里插入图片描述

1. 数据核查与清理

确保数据输入过程的正确无误,是侦错的过程。经过这一过程的数据为Computerized raw data, 其数据格式,内容与排列方式,均与文本资料完全一致,并符合编码系统的编码原则。

目的:维持数据输入过程的正确性。

(1) 标识和删除重复个案

总体思路:利用“标识重复个案”创建标识列标识重复列;利用“选择个案”删除被标识的重复列。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
删除重复个案
在这里插入图片描述
生成标识重复列Repeat
在这里插入图片描述
根据repeat列的值选择特定个案,进行删除
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
完成。

(2) 逻辑校验

录入的数据因为填写者的疏忽、隐瞒、误填等出现错误,例如移动设备平均使用时间达到30小时。因此对录入的数据需要进行逻辑检验。使用的方法为“采用制表的方式来查看是否存在逻辑问题”。相关命令:Analyze/tables/Customs Tables

首先要分析数据,确定存在逻辑关系的列。如下图所示选中的两列中,若无网络经历(0),那么网络购物消费额度应当为0.
在这里插入图片描述
通过定制表查出异常数值。

在这里插入图片描述
选中具有关系的两列作为行列值,
在这里插入图片描述
在报告中可以发现,否列的值应当全部为0,但是出现了1,说明出现了逻辑错误数据。
在这里插入图片描述
接下来需要删掉这些记录:
在这里插入图片描述
再定制表时可以发现,基于这一逻辑关系的错误列已经被删除:
在这里插入图片描述

2.数据的整备

在甄错的基础上,对数据进行进一步完善,为数据整备。

(1) 遗漏值处理

利用替换缺失遗漏值进行遗漏值处理:
在这里插入图片描述

替换遗漏值的方法如下所示有多种:
在这里插入图片描述

A. Series means: 表示用整个序列的均值作为替代
B. Mean of nearby points:表示利用邻近点的均值替代
C. Median of nearby points:表示利用邻近点的中位数作为替代
D. Linear interpolation: 线性差值法,用缺失值前后两点数据的某种线性组合进行填补,是一种加权平均。
E. Linear trend at point:为线性趋势法,表示利用回归拟合线的拟合值作为替代值。

使用中应当注意:如下图所展示的五类补全“课堂焦虑”的方法,可以发现“临近点平均值”、“临近点中间值”、“线性插值”都不能补全一、二的值,因为这几种方法需要临近点不为空。

在这里插入图片描述

(2) 偏离值

分析下图所示的属性中是否出现偏离值:
在这里插入图片描述

分析思路1-频率统计

查看该字段的值是否在正常范围(0~24)内。因此,可以使用分析中描述性统计的频率统计:
在这里插入图片描述
在这里插入图片描述

可以得到下述结果:
在这里插入图片描述

分析:可以看出在均值为4.19,标准差为4.243的基本统计量下,30显然是一个outlier,确切的讲是个Extreme,极端值,应当引起特别关注。

分析思路2-箱线图

可以发现分析思路1依赖于常识,只在部分情况实用。另一种具备普适性的方法是使用箱线图:距离盒长的1.5倍以上被认为是偏离值;距离盒长3倍以上为极端值;极端值与偏离值越多,代表偏离情形越严重。
下图源于聂卉老师课件3-2:

在这里插入图片描述

SPSS绘制步骤:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

拓展-双变量的偏离值检验
有的时候,我们需要将样本分类后,比较感兴趣数据的分布情况。
任务:将男生和女生上网时间的差异进行比较 名义变量(性别)-尺度变量(上网时间)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分析:

  • 男生和女生上网时间的分布差异不大。男生平均时间为3.70小时,女生为4.61小时。
  • 女生数据分布略分散,表现在标准差男生为2.494,女生为5.459,箱线图也表明部分女生上网时间比较长。但从偏离值中发现,女生群体中出现一个极端值,54,不合常理,需关注,可能是错误输入,该值影响女生样本的各项描述统计值,建议查验,剔除后,再分析。

分析思路3-界外值

所谓界外值,即绘制极值表,查看极值个案及其数值,观察极值距离是否合理。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

确定偏离值时,一般需要进行多个图表综合分析,得到最终结论。就上网时间分析,可以综合使用箱线图、频率分布图、极值表等等进行分析。

在这里插入图片描述在这里插入图片描述在这里插入图片描述

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值