SPSS单因素方差分析教程-CSDN博客

本文链接：https://blog.csdn.net/twocanis/article/details/125192298

文章目录

写在前面

自学记录用，源自 B站SPSS单因素方差分析教程，欢迎指正交流

什么是单因素方差分析

即比较不同组别的平均值有没有差异。比如我想比较A/B/C三个班的平均年龄有没有差异，就是个很典型的单因素方差分析案例，因素只有班级这一个。举医学上的例子就是：轻度组/中度组/重度组的治疗效果。

单因素方差分析的原理

计算组间差异与组内差异的比值。组间差异即是轻度/中度/重度这三个组之间的差异；组内差异指的是比如重度组内有30个人，这30个人之间的差异叫组内差异。如果组间差异与组内差异之间的对比程度大的话认为这几个组之间差异显著。

单因素方差分析基于的是F统计，就是组间差异除以组内差异，如果组间差异除以组内差异的商比较大，则对应的F值大，则对应的p值小，p值小于0.05则认为参与研究组别的平均值之间存在显著差异，即核心是组间差异与组内差异的的商要大。

单因素方差分析的零假设

不同组别的平均值不存在显著差异

换句话说就是重度组与轻度组及中度组的治疗效果没有显著差异，如果算出来的p值大于0.05就要接受零假设，反之接受备选假设

单因素方差分析的备选假设

至少有一个组别不与其他组相等

注意这个备选假设不是要求每两两之间有差异，仅仅要求有一组存在不同就认为差异显著。一搬来讲，单因素方差分析结果小于0.05还会进一步进行两两比较，事后多重比较来考察具体是哪两组有显著差异。

单因素方差分析的应用条件

四个必要条件：

因变量必须为连续数值型变量：代表一个坐标轴的某个区间内，任何一个点都可以取到的数值。如分类变量像性别（男/女）就不是连续数值型变量。但如果想比较不同组之间的年龄差异，年龄这个变量涵盖了正常人类年龄能取到的任何值，所以这里的年龄属于连续数值型变量，即满足方差分析第一个条件。
每一组的变量服从 正态分布：比如想比较A/B/C三组病人在年龄上的差异，则还需要分别对这三组的病人年龄进行正态分布检验，只有 三组都满足正态分布 才能进行单因素方差分析，这是第二个条件。
组别 方差相等（齐性）：即A/B/C三组方差要相等才能进行单因素方差分析。

在实际研究中，可以对正态分布和方差相等这两个条件适当放宽，轻微偏态是可以接受的。

组别数量大于等于两组：两组以上才用单因素方差分析，两组之间更常用的是独立样本T检验。

数据实操

正态分布的检验

选项参数
- 统计-描述性-界外值
- 绘图-直方图，一定记得勾选带检验的正态图
- 确认后查看结果（这里为了结果演示换了一组不服从正态分布的数据）：Shapiro-Wilk检验显示1组和3组不满足正态分布，且根据界外值能看出具体是哪些值异常
- 处理办法
  - 进行log等转换，再次看是否满足正态分布，如满足进行参数检验
  - 剔除异常值后，再次看是否满足正态分布，如满足进行参数检验
  - 进行非参检验，详见本文不满足正态分布（非参检验）部分

参数检验与非参检验

参数检验：假定数据服从某分布（一般为正态分布），通过样本参数的估计量（x±s）对总体参数（μ）进行检验，比如t检验、u检验、方差分析。连续型变量：如数值

非参数检验：不需要假定总体分布形式，直接对数据的分布进行检验。由于不涉及总体分布的参数，故名「非参数」检验。比如，卡方检验。离散型变量：是和否、初级/中级/高级等

满足正态分布（参数检验）

参数设置

这里选用的我自己的实验数据，比较4个胎次之间的采食量差异（前面正态性检验同样用的这组，出于某些原因为方便继续往下这个部分默认这组数据符合正态分布）

因变量指的是采食量，要被拿来比较的变量（被检验变量），因子指的是组别（这里指的是胎次）
- 属性设置对比：多项式等级设置这里一般用于有明显等级性划分的数据，比如前面提到的轻度/中度/重度病人这个设置，而这里用的是胎次具有等级关系，选择等级即等于告诉软件，我想研究胎次这个因子随着等级递增与采食量之间是否有差异，一般选五次，把1-5次全算一遍。正常来讲非等级分组可以不勾选这个选项。
- 属性设置事后多重比较，本次选用如下
- 属性设置选项，勾选描述性和方差同质性检验

结果分析

描述性统计：N表示各组样本数量，红框内为文章展示经常要用到的两个值——平均值和SEM标准误

方差齐性查看：p大于0.05表示4个组别方差是齐的，满足单因素方差分析的前提条件，可以继续往下查看结果

是否显著以及对应p值，上面演示数据组间最后的p值就是下面的0.430这个值了，一般来讲如果实验设计中不隐含等级（轻/中/重度、梯度剂量等都属于有等级关系）关系，则直接选用0.430这个总p值就行。靠左边的这列只计算到三次项说明提供的数据不支持更高次的计算，这个表中三个次项的结果都大于0.05说明这些模型（线性模型/二次曲线/三次曲线变化）都不符合。如果需要列出次项关系（文章中常见的线性和二次项关系，如左图某文章的示例）：一般选用对应次项未加权这一行的结果即可。

事后多重比较：因为前面已经满足了方差齐性这一条件，所以这里的比较方法可以忽略Tamhane‘ s T2法（方差不齐看这个），直接查看Bonferroni法的结果，该结果中p值均大于0.05则表示不同胎次间的采食量没有显著差异。多重比较中具体参考哪个检验方法的前提是方差是否相等（方差齐性），更多可参考检验方法的选择

因为这里选用的Bonferroni法，不如Ducan或者Tukey那么方便的查看是哪两两之间差异明显，但有时候出于某些限制Bonferroni法又是最优选，想方便的查看两两差异并标注abc角标这里推荐 2分钟完成SPSS多重比较字母标记_显著性_方差分析_ANOVA 这一教程，利用云统计分析工具直接导入结果文件完成标记

检验方法的选择

具体比较方法的选择可参考来源【学习笔记】组间差异比较及相关问题总结，原作者写的很详细很有帮助
- 多组间比较：先用Levene’s test方差齐性检验，和Shapiro-Wilk test正态性检验
  - 各组样本数量相等用Tukey、Ducan
  - 各组样本数量不相等用Bonferroni、Student-Newman-keuls(SNK)、Scheffe
证实性研究：在实验设计阶段，根据研究目的或专业知识事先设计好需要比较的组别。如在实验设计时已设计好有一组对照组，n组实验组，最后拿到数据后，只关心实验组和对照组之间的两两比较，而实验组与实验组之间的比较是不在实验设计范围内的，无需比较。即在得到数据前，就已经设计好需要比较的组有哪些，只关心某几个组之间的均数是否有差异，这称之为“事前比较”（priori test）。

探索性研究：在实验设计阶段由于不明确那些组之间的比较是需要关注的，没办法事先设计好需要比较的组别，因此在拿到数据后，所有组的两两比较都需要进行，以进一步确定到底是那两组之间是存在差异的。如在实验设计时，并不知道正常状态、疲劳状态和睡眠状态之间的脑电信号有无差异，所以在采集到数据后，需要两两之间都进行比较才能得到结果，需要考虑所有的比较，这称之为“事后比较”（post hoc test）。（注意在实际操作中会存在这样的情况：在数据收集完成后，为减少工作量，研究者会挑出来一些看似差异比较大的组进行比较，而那些看起来似乎没有差别的组便不再比较，因此在实际操作中并没有做完所有的两两比较，而是只完成了其中几组看起来差异大的两两比较。但要注意的是，即使看似仅进行了其中几组两两比较，但这些“看起来差异大”的组别已经是在所有两两比较中，“通过经验”而不是“检验方法”所筛选出来的结果，所以实际上也还是考虑了所有的两两比较，依然属于“事后比较”。）

不满足正态分布（非参检验）

同样先附一张图

对数据进行正态检验后，不满足正态分布，选用非参检验（为方便演示下面用另一组数据）：

对下面这些数据用前面正态分布的检验提到的操作完成检验后发现 LIP/TP/NH3L/SOD 这几组数据不满足正态分布，则选用非参中的Kruskal-Wallis H检验：分析-非参数检验-旧对话框-K个独立样本

将 LIP/TP/NH3L/SOD 选为检验变量，胎次作为分组变量并设置1-4分组，检验类型选择Kruskal-Wallis H检验，并在选项中勾选描述性统计
检验结果显示 TP/NH3L 这两个指标在组间均存在差异，为进一步查看到底是两两之间的存在差异见下面Kruskal-Wallis 秩和检验如何进行两两比较部分

Kruskal-Wallis 秩和检验如何进行两两比较

接上面不满足正态分布（非参检验），来源自B站 SPSS-非参数检验6-Kruskal-Wallis H检验-多个独立样本秩和检验-事后两两比较，下面是文字整理

在ks检验的结果界面，选择非参数检验-独立样本

在弹出的对话框中只要修改字段这个模块，设置刚刚p值小于0.05的字段并添加组别直接运行

这时候发现弹出来的结果框中还是没有两两比较的结果，接着双击结果框，再弹出的新对话框模型查看器中，选中检验字段（下图所示的黄底TP），在右边界面底下的查看中选择成对比较，则在右边出现了两两比较的信息，比如下图可以看出对于TP这个指标在1组和3组之间比较p值为0.016，表面这两组之间差异显著