第二章 SPSS 的数据管理

第二章 SPSS 的数据管理

  统计分析离不开数据,因此数据管理是 SPSS 的重要组成部分。详细了解 SPSS 的数据管理方法,将有助于用户提高工作效率。SPSS 的数据管理是借助于数据管理窗口和主窗口的 File、Data、Transform 等菜单完成的。

第一节 数据的输入

2.1.1 变量的定义
  先激活数据管理窗口,然后选 Data 菜单的 Define Variable…命令项,弹出 Define Variable
对话框(见图 1.1),在 Variable Name:框内输入变量名,如本例为 x1。
在这里插入图片描述
2.1.2 数据格式化
  在 Define Variable 对话框中点击 Type…钮,弹出 Define Variable Type 对话框(如图 1.2所示),用户可根据具体资料的属性对数据进行格式化。Define Variable Type 对话框中列出如下 7种数据类型:
在这里插入图片描述

1、Numeric:

数值型,同时定义数值的宽度(Width),即整数部分+小数点+小数部分的位数,
默认为 8 位;定义小数位数(Decimal Places),默认为 2 位。

2、Comma:

加显逗号的数值型,即整数部分每 3 位数加一逗号,其余定义方式同数值型。

3、Dot:

3 位加点数值型,无论数值大小,均以整数形式显示,每 3 位加一小点(但不是小数点),可定义小数位置,但都显示 0,且小数点用逗号表示。如 1.2345 显示为 12.345,00(实际是12345E-4).

4、Scientific notation:

科学记数型,同时定义数值宽度(Width)和小数位数(Decimal Places),
在数据管理窗口中以指数形式显示。如 定义数值宽度为 9,小数位数为 2,则 345.678 显示为3.46E+02。

5、Date:

日期型,用户可从系统提供的日期显示形式中选择自己需要的。如选择 mm/dd/yy 形
式,则 1995 年 6 月 25 日显示为 06/25/95。

6、Dollar:

货币型,用户可从系统提供的日期显示形式中选择自己需要的,并定义数值宽度和
小数位数,显示形式为数值前有$。

7、Custom currency:

常用型,显示为整数部分每 3 位加一逗号,用户可定义数值宽度和小数
位数。如 12345.678 显示为 12,345.678。
8、String:字符型,用户可定义字符长度(Characters)以便输入字符。
用户选择完毕可点击 Continue 钮返回 Define Variable 对话框。

2.1.3 数据的输入

  定义好变量并格式化数据之后,即可向数据管理窗口键入原始数据。数据管理窗口的主要部分就是电子表格,横方向为电子表格的行,其行头以 1、2、3、……表示,即第 1、2、3、……行;纵方向为电子表格的列,其列头以 var00001,var00002,var00003……表示变量名。行列交叉处称为单元格,即保存数据的空格。鼠标一旦移入电子表格内即呈十字形,这时按鼠标左键可激活单元格,被激活的单元格以加粗的边框显示;
  用户也可以按方向键上下左右移动来激活单元格。单元格被激活后,用户即可向其中输入新数据或修改已有的数据。图 1.3 所示即为一个已输入数据的数据管理窗口。为方便起见,用户亦可省略定义变量和数据格式化两个步骤,一启动 SPSS 即向数据管理窗口中键入原始数据,这时,变量名默认为 var00001,var000
02,var00003……
在这里插入图片描述
2.1.4 缺失值处理
  实际工作中,因各种原因会出现数值缺失现象,为此,SPSS 提供缺失值处理技术。在 Define Variable 对话框中点击 Missing Value…钮,弹出 Define Missing Values 对话框(图 1.4),用户有 4 个可选项:
在这里插入图片描述

1、No missing values:

没有缺失值;

2、Discrete missing values:

可定义 1-3 个。如测量身高(厘米)的资料,可定义 999 为缺
失值;性别的资料(男为 1、女为 2),可定义-1 为缺失值;

3、Range of missing values:

可定义缺失值的范围。如脉搏资料,可定义 0—9 为缺失值;

4、Range plus one discrete missing value:

可定义缺失值的范围,同时定义另外 1 个不是
这一范围的缺失值。如定义 0—9 为脉搏的缺失值,同时定义 999 为身高的缺失值。
2.1.5 变量标签
  在 Define Variable 对话框中点击 Labels…钮,弹出 Define Labels 对话框(图 1.5),用户可定义变量标签和特定变量值的标签。如定义变量 hb 的标签为“血红蛋白值”,同时定义 12.36 为“正 常”,则可在 Define Labels 对话框中的 Variable Label 处输入变量标签名,在 Value Labels 框
中的 Value 处指定变量值,在 Value Label 处输入变量值标签,点击 Add 钮表示加入这种标签定义,点击 Change 表示更改原有标签,用户重新定义,点击 Remove 钮表示取消原有标签。
在这里插入图片描述
2.1.6 数据管理器列宽定义
  在 Define Variable 对话框中点击 Column Format…钮,弹出 Define Column Format 对话框(图 1.6),用户可定义数据管理器纵列的宽度,以便显示较长的数值或文字;同时用户还可指定数值或文字在数据管理器单元格中的位置:Left 表示靠左、Center 表示居中、Right 表示靠右(此为默认方式)。

第二节 数据的编辑

  输入的原始数据,经常在统计分析前或统计分析过程中,需要作一些特殊的处理。为此,系统提供了如下主要方法。

2.2.1 数据的增删
2.2.1.1 增加一个新的变量列

  例如要在第 2 列前增加一个新的列,使原来的第 2 列右移变成第 3 列,则可先激活第 2 列的任一单元格,然后选 Data 菜单的 Insert Variable 命令项,系统自动为用户在第 2 列前插入一个新的变量列,原第 2 列自动向右移一列成为第 3 列。

2.2.1.2 增加一个新的观察单位(即增加一个新的行)

  例如要在第 6 个观察单位前增加一个观察单位(亦即在第 6 行前增加一行,使原来的第 6 行下移成为第 7 行),则可先激活第 6 行的任一单元格,然后选 Data 菜单的 Insert Case 命令项,系统自动为用户在第 6 行前插入一个新的行,原第 6 行列自动向下移一行成为第 7 行。

2.2.1.3 增加一个新的观察值
   例如由于输入错误,造成第 7 个观察单位的第 4 个变量值漏输,结果第 8 个观察单位的第 4 个变量值误为第 7 个观察单位的第 4 个变量值,这样的情形使得数据管理器中的第 4 个变量值从第 7行起全部上移,而合计例数少一个。于是希望在第 7 行的第 4 列处插入 1 个单元格,原有数据依次下移恢复正常。
  可先将鼠标指向在第 7 行第 4 列交叉处的单元格,然后按住鼠标左键向下拖动鼠标直至第 4 列从第 7 行起的所有数据被选中(黑底白字),选 Edit 菜单的 Cut 命令项,选中的数据被剪切入剪贴板,再激活第 8 行第 4 列交叉处的单元格,选 Edit 菜单的 Paste 命令项,可将剪贴板中的原第 7 行起的所有数据下移自第 8 行开始,并空出第 7 行第 4 列的单元格以便补入漏输的数值。

2.2.1.4 删除一个行
  例如要删除第 9 行(即删除这个观察单位的所有观察值),则可先点击第 9 行的行头,这时整个第 9 行被选中(呈黑底白字状),然后按 Delete 键或选 Edit 菜单的 Clear 命令项,该行即被删除。

2.2.1.5 删除一个变量列

  删除第 4 个变量列,则可先点击第 4 列的列头,这时整个第 4 列被选中(呈黑底白字状),
然后按 Delete 键或选 Edit 菜单的 Clear 命令项,该列即被删除。

2.2.1.6 删除一个观察值
  例如由于输入错误,造成第 6 个观察单位的第 2 个变量值重复输入,结果第 7 个观察单位的第2 个变量值误为第 6 个观察单位的第 2 个变量值,第 8 个观察单位的第 2 个变量值误为第 7 个观察单位的第 2 个变量值,……,这样的情形使得数据管理器中的第 2 个变量值从第 7 行起全部下移,而合计例数多一个。
  于是希望将第 7 行第 2 列的单元格删除,原有数据依次上移恢复正常。可先将鼠标指向在第 8 行第 2 列交叉处的单元格,然后按住鼠标左键向下拖动鼠标直至第 2 列从第 8 行起的所有数据被选中(黑底白字),选 Edit 菜单的 Cut 命令项,选中的数据被剪切入剪贴板,再激活第 7 行第 2 列交叉处的单元格,按 Del 键删除该单元格的数值,选 Edit 菜单的 Paste 命令项,可将
剪贴板中的原第 8 行起的所有数据上移自第 7 行开始,既填补第 7 行第 2 列的单元格,又恢复原有下移的数值。
2.2.2 数据的整理
2.2.2.1 数据的排序

  用户可按要求对数据管理器的数据进行排序。选 Data 菜单的 Sort Cases…命令项,弹出 Sort Cases…对话框(图 1.7)
  在变量名列框中选 1 个需要按其数值大小排序的变量(用户也可选多个
变量,系统将按变量选择的先后逐级依次排序),点击 ¾ 钮使之进入 Sort by 框,然后在 Sort Order框中确定是按升序(Ascending,从小到大)或降序(Descending,从大到小),点击 OK 钮即可。
2.2.2.2 数据的行列互换
  有时,用户需要将数据管理器中原先按行(列)方向排列的数据转换成按列(行)方向排列的数据,这时可选 Data 菜单的 Transpose…命令项,弹出 Transpose…对话框(图 1.8)
  在变量名列框中选 1 个或多个需要转换的变量,点击 ¾ 钮使之进Variable(s)框,再点击 OK 钮即可。产生的新数据会在第 1 列出现一个 case_lbl 新变量,用于放置原来数值的变量名。若要将数据再转换回原来的排列方式,方法与上述过程相同。

图 1.8 行列互换框

2.2.2.3 数据的分组汇总
  用户还可对数据管理器中的数据按指定变量的数值进行归类分组汇总,汇总的形式十分多样。
  例如,要对下列数据(图 1.9)按变量 group 的大小,把变量 x1 作平均值汇总、把变量 x2 作求和汇总。选 Data 菜单的 Aggregate…命令项,弹出 Aggregate Data 对话框(图 1.10)
  在变量名列框中选 group变量,点击¾ 钮使之进入 Break Variable(s)框,选 x1变量进入 Aggregate Variable(s)框,因 x1 欲作平均值汇总,故点击 Function…钮弹出 Aggregate Data: Aggregate Function 对话框(图 1.11)
  选 Mean of values 项点击 Continue 钮返回;选 x2 变量进入 Aggregate Variable(s)框,因 x2 变量欲作求和汇总,故点击 Function…钮选 Sum of values 项点击 Continue 钮返回。
  再点击 OK 钮即可。结果如图 1.12 所示
在这里插入图片描述
在这里插入图片描述

分组汇总提供的函数形式有:

1、Mean of values:求该组的平均值;
2、Standard deviation:求该组的标准差;
3、First value:只保留该组的第 1 个数值;
4、Minimum value:只保留该组的最小值;
5、Last value:只保留该组的最后 1 个数值;
6、Maximum value:只保留该组的最大值;
7、Number of cases:合计该组的观察例数;
8、Sum of values :求该组所有观察值的和。
9、Percentage above :先确定 1 个数值,求大于该数值的所有例数占总例数的百分比(0-100%);
10、Percentage below:先确定 1 个数值,求小于该数值的所有例数占总例数的百分比(0-100%);
11、Fraction above:先确定 1 个数值,求大于该数值的所有例数占总例数的百分比(0-1);
12、Fraction below:先确定 1 个数值,求小于该数值的所有例数占总例数的百分比(0-1);
13、Percentage inside:先确定 1 个下限,再确定 1 个上限,求数值在该区间内的例数占总例
数的百分比(0-100%);
14、Percentage outside:先确定 1 个下限,再确定 1 个上限,求数值在该区间外的例数占总
例数的百分比(0-100%);
15、Fraction inside:先确定 1 个下限,再确定 1 个上限,求数值在该区间内的例数占总例数
的百分比(0-1);
16、Fraction outside:先确定 1 个下限,再确定 1 个上限,求数值在该区间外的例数占总例数的百分比(0-1)。

2.2.2.4 数据的分割
  数据也可根据需要,事先按用户的指定作分组(这种分组是系统内定义的,在数据管理器中并不一定明确体现,故亦可称之为分割),此后的所有分析都将按这种分组进行,除非取消数据分割的命令。
  选 Data 菜单的 Split File…命令项,弹出 Split File 对话框(图 1.13),选 Repeat analysis for each group 表示此后都按指定的分组方式作相同项目的分析,用户可从变量名列框中选 1 个或多个变量点击 ¾ 钮使之进入 Groups Based on 框来作分组的依据。若在数据分割之后要取消这种分
组,可选 Analyze all cases 项,则系统恢复如初。 调用 Split File 命令完成定义后,SPSS 将在主窗口的最下面状态行中显示 Split File On 字
样;若调用该命令后的数据库被用户存盘,则当这个数据文件再次打开使用时,仍会显示 Split File On 字样,意味着数据分割命令依然有效。
在这里插入图片描述
2.2.2.5 数据的选择
  除按要求作数据分组分别作分析外(但这依然是将所有的资料全部代入分析),还可从所有资料中选择一些数据进行统计分析。选 Data 菜单的Select Cases…命令项,弹出 Select Cases 对话框(图 1.14),系统提供如下几种选择方法:
在这里插入图片描述

1、All cases:

表示所有的观察例数都被选择,该选项可用于解除先前的选择;

2、If condition is satisfied:

表示按指定条件选择,点击 If…钮,弹出 Select Cases:If
对话框(图 1.15),先选择变量,然后定义条件;

3、Random sample of cases:

表示对观察单位进行随机抽样,点击 Sample…钮,弹出 Select
Cases:Random Sample 对话框,有两种选择分式,一是大概抽样(Approximately)即键入抽样比例
后由系统随机抽取,另一是精确抽样(Exactly)即要求从第几个观察值起抽取多少个;

4、Based on time or case range:

表示顺序抽样,点击 Range…钮,弹出 Select Cases:Range
对话框,用户定义从第几个观察值抽到第几个观察值;

5、Use filter variable:

  表示用指定的变量作过滤,用户先选择 1 个变量,系统自动在数据管理器中将该变量值为 0 的观察单位标上删除标记,系统对有删除标记的观察单位不作分析。
  若用户在 Select Cases 对话框的 Unselected Cases Are 框中选 Deleted 项,则系统将删除所有被标上删除标记的观察单位。
调用 Select Cases 命令完成定义后,SPSS 将在主窗口的最下面状态行中显示 Filter On 字样;若调用该命令后的数据库被用户存盘,则当这个数据文件再次打开使用时,仍会显示 Filter On 字样,意味着数据选择命令依然有效。
在这里插入图片描述
2.2.2.6 观察单位的秩次确定
为了解在指定条件下某个或某些变量值的大小顺序,可选 Transform 菜单的 Rank Cases…命令项,弹出 Rank Cases 对话框(图 1.16),从变量名列框中选 1 个或多个变量点击 ¾ 钮使之进入Variable(s)框作为按该变量值大小排序的依据。若选 1 个或多个变量使之进入 By 框,则系统在排序时将按进入 By 框的变量值分组排序。排序的结果将在数据管理器中新建 1 个变量名为原排序变量前加一特定排序类型字母(如原变量为 x,则普通排序时变量为 rx)的变量用于放置秩次。用户可在 Rank Cases 对话框的 Assign Rank 1 to 框中指定秩次排列方式:Smallest value 表示最小值用1 标注,之后为 2、3、4……;Largest value 表示最大值用 1 标注,之后为 2、3、4……。
在这里插入图片描述
若点击 Rank Cases 对话框的 Rank Types…钮,可选择排序类型(图 1.17):

1、Rank

:普通秩次,排序类型字母 r;

2、Fractional Rank as percent;

累积百分秩次,排序类型字母 p;

3、Savage score:

以指数分布为基础的原始分秩次,排序类型字母 s;

4、Sum of case weights:

分组例数之和的权重秩次,排序类型字母 n;

5、Fractional Rank:

分组例数之和占总例数累积百分比秩次,排序类型字母 r;

6、Ntiles:

先给定一个大于 1 的整数,系统按此数范围确定排序的秩次,排序类型字母 n。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云计算架构师0001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值