SPSS26统计分析笔记——1 基础知识

Liantharion

已于 2024-09-24 16:41:11 修改

阅读量1.9k

点赞数 22

分类专栏： SPSS 文章标签： SPSS 数据分析概率论需求分析统计分析大数据处理笔记

于 2024-09-18 16:17:57 首次发布

本文链接：https://blog.csdn.net/m0_64111363/article/details/142335380

版权

SPSS 专栏收录该内容

10 篇文章

订阅专栏

1.1 是否存在空行／空列+变量数值是否超出特定范围

在进行数据分析前，首先需要核实数据录入的准确性，尤其是检查是否存在由于录入疏忽而产生的空行或空列。这些空行或空列并非数据缺失，而是操作不当导致的。在SPSS中，这类空行会被视为缺失值，从而对后续的数据分析造成干扰。因此，必须将这些空行或空列识别并删除。检查空行和空列的方法非常简单。你可以选择某一列的变量名，在要排序的列变量名处右击，弹出快捷菜单，选择“升序排序”或“降序排序”命令即可。此时，任何空行将自动排列在数据集的顶部，便于快速识别和删除。

操作：数据列>升序排序/降序排序；

1.2 变量数据是否存在重复样本

在大量数据录入过程中，特别是录入工作中断或由多人分别录入时，常常会发生重复录入的情况，导致重复样本的出现。为了检查和删除这些重复样本，可以使用“数据”>“标识重复个案”命令来识别重复数据并进行处理。

操作：数据>标识重复个案；

1.3 合并文件

在数据处理过程中，若需将多个数据集进行纵向拼接，可以通过添加个案的方式，将不同数据文件中的个案合并为一个新的数据集。合并后的数据集个案数为原有数据集中非重复个案数的总和。添加个案通常适用于个案分散在不同数据文件中，且这些文件中的变量基本相同的情况。不过，在添加个案的过程中，部分新的变量也可能被同时合并。此外，若需将不同数据文件中的变量与现有数据合并，可以通过添加变量的方式，将这些数据文件中的不同变量横向拼接到现有数据中。此方法适用于各数据文件的个案相同，但每个文件包含的变量不同的情况。同样，虽然主要操作是添加变量，但也可能在合并过程中引入新的个案。

操作：数据>合并文件>（合并个案、合并变量）；

1.4 选择个案

在实际统计分析中，有时并不需要对所有个案进行分析，而是针对符合特定条件的个案进行筛选。例如，分析时可能只需要处理女性员工的数据，或根据多个条件筛选，如仅分析女性、已婚且在业务部门工作的员工。在此类情况下，可以通过“数据”菜单中的“选择个案”命令，筛选出符合这些条件的个案，从而进行后续的分析。这一功能允许灵活地根据单一或多个条件对样本进行筛选，使得数据处理更加精准。

操作：数据>选择个案；

1.5 拆分文件

使用拆分文件命令后，原数据并不会被真正分割成多个独立文件，而是在“数据视图”的右下角标记好，以便后续分析时按指定条件分组处理。例如，可以按性别或部门进行数据拆分，方便对不同群体进行进一步的分析。这个过程只是对数据的显示方式进行调整，为后续分析做好准备，而不会影响原始数据的完整性。

操作：数据>拆分文件；

1.6 个案加权

在数据分析中，我们常会遇到按频数记录的分类数据。这类数据通常为每个分类出现一次，并通过一个变量来记录其频数。为了让系统识别分类变量中频数的实际含义，需要对变量进行加权。个案加权的主要目的是为后续的数据分析提供准备，而加权本身并不会改变数据的结构或产生直接结果，与“拆分文件”功能类似，都是为进一步分析做准备。因此，加权操作仅在后续分析时才体现出其作用。

操作：数据>个案加权；

1.7 计算变量

在数据统计分析过程中，常常需要对数据变量进行各种运算以生成新的变量，如进行求和、函数运算等。在 SPSS 中，可以通过“转换”菜单中的“计算变量”命令来完成这一操作。通过此功能，用户能够根据已有数据进行数学运算，生成新的变量，满足进一步分析的需求。

操作：转换>计算变量；

1.8 重新编码

在需要将连续变量转换为等级变量，或对变量取值进行重新修改或合并时，可以使用重新编码功能。在 SPSS 中，有两种方式进行变量值的重新编码：一种是使用 “重新编码为相同的变量”，直接修改原始变量的数值并替换；另一种是使用 “重新编码为不同变量”，根据原始变量的取值创建一个新变量来记录重新编码的结果。这两种方式可以根据具体需求选择，以实现数据的有效转换和调整。

操作：转化>重新编码为相同的变量（覆盖原始值）/重新编码为不同变量（重新生成新数值）；

1.9 替换缺失值

在数据收集过程中，可能会遇到被试拒绝回答问题或遗漏回答的情况，导致数据中出现缺失值。此外，数据录入错误也可能引发缺失值。缺失值可能影响统计分析的有效性，因此需要采取适当的处理措施。处理缺失值的方法主要有三种：

（1）删除缺失数据：直接删除包含缺失值的个案。这种方法在样本量较小的情况下可能不适用，因为删除数据可能会显著减少样本量。

（2）置换缺失值：用一定的方法填补缺失值。

SPSS 提供了几种置换方法：

①序列均值：用有效观测样本的均值替代缺失值；

②临近点均值：用缺失值前后 n 个观测值的均值进行替代；

③临近点中位数：用缺失值前后 n 个观测值的中位数替代；

④线性插值：通过缺失值前后观察值的线性插值进行填补；

⑤邻近点的线性趋势：利用线性回归法，基于编号预测缺失值。

（3）缺失值分析：对缺失值的原因及其对结果的影响进行分析，这种方法较为全面和严谨。

操作：转换>替换缺失值；

1.10 多重响应集

多重响应集用于处理那些允许多个选择的调查数据，能够将多个响应选项整合为一个变量集进行分析。这种方法可以生成各选项的频率表和百分比，方便分析每个选项的受欢迎程度，同时也支持将多重响应数据与其他变量交叉分析，从而揭示不同选项与其他变量之间的关系。它简化了对复杂调查数据的管理和分析过程，帮助研究者更全面地理解数据背后的信息。

操作：数据>定义多重响应集 / 分析>表>多重响应 / 分析>多重响应>定义变量集；