数学建模——计算机工具的使用（1）——SPSS操作以及在统计分析中的应用

最新推荐文章于 2024-07-18 22:15:28 发布

Mr.Persimmon

最新推荐文章于 2024-07-18 22:15:28 发布

阅读量6.7k

点赞数 17

分类专栏：数学建模文章标签：数学建模 SPSS操作计算机工具

本文链接：https://blog.csdn.net/NoBuggie/article/details/103251559

版权

本文详细介绍了SPSS的基础操作，包括数据管理、统计分析和图形分析。重点讲解了如何定义变量、数据转换以及如何进行统计分析，如数据排序、变量转置、文件合并和个案选择。此外，还介绍了统计分析中的描述性统计和假设检验，以实例展示了如何进行t检验和方差分析，是学习SPSS操作的实用指南。

摘要由CSDN通过智能技术生成

本文指南

本文讲解SPSS操作以及基础数据分析概念。
文章立志于打造字典级SPSS操作指南，因此建议读者根据目录适当食用。
本应用将持续更新到2020年2月14日美赛，主要更新内容集中在分析（高级）内容，主要采取的形式是链接到我的其他博客中。
文章所使用的资料来源集中于《数学建模》书籍，以确保内容的准确性，并采用图示操作形象化文字描述。当然本文内容还有大量的其他资料来源以及浅薄的个人经验整理。
如果你在阅读时发现了错误，请在下方评论区进行评论，万分感谢。
如果你觉得内容尚可，感谢点赞。
最后，祝愿诸位与我共同进步，学有所成。

一、SPSS简介

在国际学术界有条不成文的规定，即在国际学术交流中，凡是用SPSS软件完成的计算和统计分析，可以不必说明算法。
SPSS 的基本功能包括数据管理、统计分析、图表分析、输出管理等等。
1. SPSS 统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类，每类中又分好几个统计过程，比如回归分析中又分线性回归分析、曲线估计、Logistic 回归、Probit 回归、加权估计、二阶段最小二乘法、非线性回归等多个统计过程，而且每个过程中又允许用户选择不同的方法及参数。
2. SPSS 也有专门的绘图系统，可以根据数据绘制各种图形。

二、SPSS操作

1. 基本步骤

以统计分析为引：

录入数据或者打开一个已经存在的数据文件，根据需要进行数据转换；
选择合适的统计分析过程，选择统计分析所采用的方法和参数；
分析SPSS 输出的结果，并保存结果。

2. 数据管理（Data Management）

1. 主界面

启动SPSS 后，出现的界面是数据编辑器窗口，它的底部有两个标签：Data View（数据视图）和Variable View（变量视图），它们提供了一种类似于电子表格的方法，用以产生和编辑SPSS 数据文件。
1. Data View（数据视图）用于查看、录入和修改数据；
2. Variable View（变量视图）定义和修改变量的定义。
与Excel的一些区别
1. 列是变量，即每一列代表一个变量（Variable）或一个被观测量的特征。
2. 行是观测，即每一行代表一个个体、一个观测、一个样品，在SPSS 中称为事件（Case）。
3. 单元包含值，即每个单元包括一个观测中的单个变量值。单元（Cell）是观测和变量的交叉。与电子表格不同，单元只包括数据值而不能含公式。
4. 数据文件是一张长方形的二维表。数据文件的范围是由观测和变量的数目决定的。可以在任一单元中输入数据。如果在定义好的数据文件边界以外键入数据，SPSS 将数据长方形延长到包括那个单元和文件边界之间的任何行和列。
如果要分析的数据还没有录入，可用数据编辑器来键入数据并保存为一个SPSS数据文件（其默认扩展名为sav）。

2. 变量视图

1. 定义变量

输入数据前首先要定义变量。定义变量即要定义变量名、变量类型、变量长度（小数位数）、变量标签（或值标签）和变量的格式。
操作步骤
1. 单击数据编辑窗口中的Variable View标签或双击列的题头（Var），显示变量定义视图。
2. 在出现的变量视图中定义变量。
变量定义信息的解释
1. Name：定义变量名。变量名必须以字母或字符@开头，其它字符可以是任何字母、数字或_、@、#、$等符号。变量名总长度不能超过8 个字符（即4个汉字）。
2. Type：定义变量类型。SPSS 的主要变量类型有：Numeric（标准数值型）、Comma（带逗号的数值型）、Dot（圆点作小数点的数值型）、Scientific Notation（科学记数法）、Date（日期型）、Dollar（带美元符号的数值型）、Custom Currency（自定义型）、String（字符型）。单击Type相应单元中的按钮，选择合适的变量类型并单击OK。
3. Width：变量长度。设置数值变量的长度，当变量为日期型时无效。
4. Decimal：变量小数点位数。设置数值变量的小数点位数，当变量为日期型时无效。
5. Label：变量标签。变量标签是对变量名的进一步描述，变量只能由不超过8 个字符组成，8 个字符经常不足以表示变量的含义。而变量标签可长达120 个字符，变量标签对大小写敏感，显示时与输入值完全一样，需要时可用变量标签对变量名的含义加以解释。
6. Value：变量值标签。值标签是对变量的每一个可能取值的进一步描述。
7. Missing：缺失值的定义方式。
  SPSS 有两类缺失值：系统缺失值和用户缺失值。
  - 在数据长方形中任何空的数字单元都被认为系统缺失值，用点号（ • ）表示。
  - SPSS 可以指定那些由于特殊原因造成的信息缺失值，然后将它们标为用户缺失值，统计过程识别这种标识，带有缺失值的观测被特殊处理。默认值为None。
  - 单击Value 相应单元中的按钮，可改变缺失值定义方式。
8. Column：变量的显示宽度。输入变量的显示宽度，默认为8。
9. Align：变量显示的对齐方式。选择变量值显示时的对齐方式：Left（左对齐）、Right（右对齐）、Center（居中对齐）。
10. Scale：变量的测量尺度。根据变量测量精度不同，可把变量由低到高分为四种尺度：定类变量、定序变量、定距变量和定比变量。
  1. 定类变量。定类变量由称为名义（nominal）变量。这是一种测量精度最低、最粗略的基于“质”因素的变量，它的取值只代表观测对象的不同类别，例如“性别”变量、“职业”变量等都是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的共同特点是用不多的名称来加以表达，并由被研究变量每一组出现的次数及其总计数所组成，这种数据是枚举性的，即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而，在定类数据中，同一组内各单位是等价的，同时若更换各不同组的符号并不会改变数据原有的基本信息。因此，最常用来综合定类数据的统计量是频数、比率或百分比等。
  2. 定序变量。定序变量由称为有序（ordinal）变量、顺序变量，它的取值大小能够表示观测对象的某种顺序关系（等级、方位或大小等），也是基于“质”因素的变量。例如：“最高学历”变量的取值是：1－小学及以下、2－初中、3－高中、中专、技校、4－大学专科、5－大学本科、6－研究生以上。由小到大的取值能够代表学历由低到高。定序变量的取值称为定序数据或有序数据。适合于定序数据的数学关系是“大于（>）”和“小于（<）”关系。在定序数据中，同一组内各单位是等价的，相邻组之间的单位是不等价的，它们存在“大于”或“小于”的关系。而且进行保序变换（或称单调变换），不改变数据原有的基本信息即等级顺序。最适合用于综合定序数据取值的集中趋势的统计量是中位数。
  3. 定距变量。定距变量又称为间隔（interval）变量，它的取值之间可以比较大小，可以用加减法计算出差异的大小。例如，“年龄”变量，其取值60与20相比，表示60岁比20岁大，并且可以计算出大40 岁（60-20）。定距变量的取值称为定距数据或间隔数据。定距数据是一些真实的数值，具有公共的、不变的测定单位，可以进行加减乘除运算。定距数据的基本特点是两个相同间隔的数值的差异相等。对于定距数据，不仅可以规定“等价关系”以及“大于关系”和“小于关系”，而且也可以规定任意两个相同间隔的比值或差值。如果将每个数值分别乘以一个正的常数再加上一个常数，即进行正线性变换，并不影响定距数据原有的基本信息。因此，常用的统计量如均值、标准差、相关系数等都可直接用于定距数据。
  4. 定比变量。定比变量又称为比率（ratio）变量，它与定距变量意义相近，细微差别在于定距变量中的“0”值只表示某一取值，不表示“没有”。例如，人的身高就是一个定比变量，如果身高值为“0”米，则