本文指南
- 本文讲解SPSS操作以及基础数据分析概念。
- 文章立志于打造字典级SPSS操作指南,因此建议读者根据目录适当食用。
- 本应用将持续更新到2020年2月14日美赛,主要更新内容集中在分析(高级)内容,主要采取的形式是链接到我的其他博客中。
- 文章所使用的资料来源集中于《数学建模》书籍,以确保内容的准确性,并采用图示操作形象化文字描述。当然本文内容还有大量的其他资料来源以及浅薄的个人经验整理。
- 如果你在阅读时发现了错误,请在下方评论区进行评论,万分感谢。
- 如果你觉得内容尚可,感谢点赞。
- 最后,祝愿诸位与我共同进步,学有所成。
一、SPSS简介
- 在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法。
- SPSS 的基本功能包括数据管理、统计分析、图表分析、输出管理等等。
- SPSS 统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic 回归、Probit 回归、加权估计、二阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。
- SPSS 也有专门的绘图系统,可以根据数据绘制各种图形。
二、SPSS操作
1. 基本步骤
以统计分析为引:
- 录入数据或者打开一个已经存在的数据文件,根据需要进行数据转换;
- 选择合适的统计分析过程,选择统计分析所采用的方法和参数;
- 分析SPSS 输出的结果,并保存结果。
2. 数据管理(Data Management)
1. 主界面
- 启动SPSS 后,出现的界面是数据编辑器窗口,它的底部有两个标签:Data View(数据视图)和Variable View(变量视图),它们提供了一种类似于电子表格的方法,用以产生和编辑SPSS 数据文件。
- Data View(数据视图)用于查看、录入和修改数据;
- Variable View(变量视图)定义和修改变量的定义。
- 与Excel的一些区别
- 列是变量,即每一列代表一个变量(Variable)或一个被观测量的特征。
- 行是观测,即每一行代表一个个体、一个观测、一个样品,在SPSS 中称为事件(Case)。
- 单元包含值,即每个单元包括一个观测中的单个变量值。单元(Cell)是观测和变量的交叉。与电子表格不同,单元只包括数据值而不能含公式。
- 数据文件是一张长方形的二维表。数据文件的范围是由观测和变量的数目决定的。可以在任一单元中输入数据。如果在定义好的数据文件边界以外键入数据,SPSS 将数据长方形延长到包括那个单元和文件边界之间的任何行和列。
- 如果要分析的数据还没有录入,可用数据编辑器来键入数据并保存为一个SPSS数据文件(其默认扩展名为sav)。
2. 变量视图
1. 定义变量
-
输入数据前首先要定义变量。定义变量即要定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签)和变量的格式。
-
操作步骤
- 单击数据编辑窗口中的Variable View标签或双击列的题头(Var),显示变量定义视图。
- 在出现的变量视图中定义变量。
- 单击数据编辑窗口中的Variable View标签或双击列的题头(Var),显示变量定义视图。
-
变量定义信息的解释
- Name:定义变量名。变量名必须以字母或字符@开头,其它字符可以是任何字母、数字或_、@、#、$等符号。变量名总长度不能超过8 个字符(即4个汉字)。
- Type:定义变量类型。SPSS 的主要变量类型有:Numeric(标准数值型)、Comma(带逗号的数值型)、Dot(圆点作小数点的数值型)、Scientific Notation(科学记数法)、Date(日期型)、Dollar(带美元符号的数值型)、Custom Currency(自定义型)、String(字符型)。单击Type相应单元中的按钮,选择合适的变量类型并单击OK。
- Width:变量长度。设置数值变量的长度,当变量为日期型时无效。
- Decimal:变量小数点位数。设置数值变量的小数点位数,当变量为日期型时无效。
- Label:变量标签。变量标签是对变量名的进一步描述,变量只能由不超过8 个字符组成,8 个字符经常不足以表示变量的含义。而变量标签可长达120 个字符,变量标签对大小写敏感,显示时与输入值完全一样,需要时可用变量标签对变量名的含义加以解释。
- Value:变量值标签。值标签是对变量的每一个可能取值的进一步描述。
- Missing:缺失值的定义方式。
SPSS 有两类缺失值:系统缺失值和用户缺失值。- 在数据长方形中任何空的数字单元都被认为系统缺失值,用点号( • )表示。
- SPSS 可以指定那些由于特殊原因造成的信息缺失值,然后将它们标为用户缺失值,统计过程识别这种标识,带有缺失值的观测被特殊处理。默认值为None。
- 单击Value 相应单元中的按钮,可改变缺失值定义方式。
- Column:变量的显示宽度。输入变量的显示宽度,默认为8。
- Align:变量显示的对齐方式。 选择变量值显示时的对齐方式:Left(左对齐)、Right(右对齐)、Center(居中对齐)。
- Scale:变量的测量尺度。根据变量测量精度不同,可把变量由低到高分为四种尺度:定类变量、定序变量、定距变量和定比变量。
- 定类变量。定类变量由称为名义(nominal)变量。这是一种测量精度最低、最粗略的基于“质”因素的变量,它的取值只代表观测对象的不同类别,例如“性别”变量、“职业”变量等都是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的共同特点是用不多的名称来加以表达,并由被研究变量每一组出现的次数及其总计数所组成,这种数据是枚举性的,即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而,在定类数据中,同一组内各单位是等价的,同时若更换各不同组的符号并不会改变数据原有的基本信息。因此,最常用来综合定类数据的统计量是频数、比率或百分比等。
- 定序变量。定序变量由称为有序(ordinal)变量、顺序变量,它的取值大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如:“最高学历”变量的取值是:1-小学及以下、2-初中、3-高中、中专、技校、4-大学专科、5-大学本科、6-研究生以上。由小到大的取值能够代表学历由低到高。定序变量的取值称为定序数据或有序数据。适合于定序数据的数学关系是“大于(>)”和“小于(<)”关系。在定序数据中,同一组内各单位是等价的,相邻组之间的单位是不等价的,它们存在“大于”或“小于”的关系。而且进行保序变换(或称单调变换),不改变数据原有的基本信息即等级顺序。最适合用于综合定序数据取值的集中趋势的统计量是中位数。
- 定距变量。定距变量又称为间隔(interval)变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。例如,“年龄”变量,其取值60与20相比,表示60岁比20岁大,并且可以计算出大40 岁(60-20)。定距变量的取值称为定距数据或间隔数据。定距数据是一些真实的数值,具有公共的、不变的测定单位,可以进行加减乘除运算。定距数据的基本特点是两个相同间隔的数值的差异相等。对于定距数据,不仅可以规定“等价关系”以及“大于关系”和“小于关系”,而且也可以规定任意两个相同间隔的比值或差值。如果将每个数值分别乘以一个正的常数再加上一个常数,即进行正线性变换,并不影响定距数据原有的基本信息。因此,常用的统计量如均值、标准差、相关系数等都可直接用于定距数据。
- 定比变量。定比变量又称为比率(ratio)变量,它与定距变量意义相近,细微差别在于定距变量中的“0”值只表示某一取值,不表示“没有”。例如,人的身高就是一个定比变量,如果身高值为“0”米,则
- 定类变量。定类变量由称为名义(nominal)变量。这是一种测量精度最低、最粗略的基于“质”因素的变量,它的取值只代表观测对象的不同类别,例如“性别”变量、“职业”变量等都是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的共同特点是用不多的名称来加以表达,并由被研究变量每一组出现的次数及其总计数所组成,这种数据是枚举性的,即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而,在定类数据中,同一组内各单位是等价的,同时若更换各不同组的符号并不会改变数据原有的基本信息。因此,最常用来综合定类数据的统计量是频数、比率或百分比等。