有各组方差怎么算组间平方和_方差分析的前提假设介绍续：违反了方差分析的前提假设有什么后果...-CSDN博客

本文链接：https://blog.csdn.net/weixin_29932857/article/details/112190463

方差分析的前提假设

方差分析是线性模型的一个分支，关于方差分析的前提假设，我在进一步理解方差分析的前提假设这篇文章中有过简单的介绍。分别是

可加性
随机性
正态性
方差齐性
独立性

暂时先不考虑可加性（毕竟是线性模型的大前提，必须要满足），我们来看看如果违反了其余的几个假设会导致什么情况。

1.违反随机性

首先说结论：如果违反随机性，方差分析的结论就基本没有用处了

1.1 随机性的本质

所谓随机性，就是取样是随机的，所以取样的误差才是随机误差。

很多同学在刚开始学习统计学的时候，都会理所当然的认为：这条假设没有必要重视，随机取样是不言而喻的，很容易满足！

并非如此!!

随机性非常重要。如果不满足随机性，方差分析就没必要做了，因为做了也得不到有用的结果。

随机性隐含的意义是：总体中每个个体都有均等的机会被抽到。所以每一个样本均值都可以估计总体的均值（总体的真实水平）。例如，某个实验有四个处理，随机抽取四组被试分配到各实验处理中。意味着这四组被试都来源于同一个总体。各组的均值都能代表总体水平（当然存在抽样偏差，但统计上来看，偏差的期望为0），在处理开始之前，他们代表的水平没有差异。

所以，我们才可以比较处理后各组的差异，以此来推断各处理的作用。

试想一下，如果取样不是随机的，而存在系统偏差，导致这四组被试处理之前实际上代表了不同的群体，那么处理之后表现出来的差异就没办法分析来源了。

1.2 什么情况下会违反随机性

那么，在什么情况下会出现抽样的偏差的？

在心理学研究中，取样偏差实际上是很常见，不过很难察觉的。

当然，我们这里不讨论取样方法的问题。要讨论的是更为现实，更常见的:被试的流失

被试的流失又可以分为两种情况：

被试由于实验中的表现不佳，被研究者以一定标准排除了
被试由于其他原因，退出了实验

第一种情况非常常见，在很多心理学实验中，为了保证数据的有效性（避免被试瞎做），研究者总是会根据反应时或者正确率排除掉一部分被试的数据。此时，取样很可能就是有偏差的

例如，在一个记忆研究中，研究者采用了三种不同的训练方法。随机抽取一批被试分为相等的三组，分别接受三种训练处理。

到目前为止，数据是满足随机性的。

但是，研究结束后，研究者认为正确率低于50%的被试是不达标的，因此排除了正确率低于50%的被试，此时第一组排除了5人，第二组排除了2人，第三组没有人被排除。

请问：此时各组数据依然满足随机性吗？或者说，各组之间的差异仅仅来自于处理吗？

答案明显是否定的。

某组排除的人数越多，说明这组当中“记忆力优秀”的个体占的比例越大，导致这组被试在处理之前来自的总体发生了变化，其均值大于原始的总体。

当然，有一种特殊情况：如果三组被试都各自排除了相同或者差不多数量的个体，虽然随机性发生了变化，但由于我们目的是比较各组的差异，此时的分析结果依然能够被接受。

第一种被试流失的情况本质上是由于被试的能力，此时会影响到统计推断，是不可忽视的。

如果不是由于被试的能力，而是由于其他的偶然因素，那么可以认为随机性没有被违反。

例如，由于实验仪器出现故障，导致某个被试的数据作废；或者由于被试忘记或者其他特殊情况，没有参加后续的实验；又或者仅仅是因为被试内急中途退出了……

但是，被试的流失到底是因为能力还是偶然，其实很难分清。一个被试中途退出了，到底是偶然的突发事件，还是因为他觉得自己表现太差，这件事只有他自己知道了。

1.3 如何应对随机性的违反

如果你确信被试的流失只是随机的（当然你也要能说服其他人），那么继续方差分析吧，并不会对结果有影响。

但是，如果被试的流失确实是因为能力，怎么办呢？

之前的例子中，按照标准，第一组确实要舍弃5人，第二组舍弃2人。此时明显违反了随机性，那么如何补救呢？

有一个不是特别好的方法为：强制将第二组和第三组都舍弃成绩最差的5人，使得每组舍弃的被试数相同。当然，这样做的目的不是为了保证等组设计，而是为了保证每组的偏差相同。这样就算有偏差，但由于偏差都相同，那么比较差异的话影响就很小了。当然，这样操作的前提是：第二组和第三组被舍弃的低分被试应该在第一组条件下不达标。而且，应该在数据分析之前就舍弃。

2.违反分布假设

正态性，方差齐性和独立性实际上都是用于描述随机误差分布的假设，所以将这三者放到一起。因为三个假设通常是互相关联的，违反了其中一个或多或少都会违反其他两个。

例如，违反了正态性，很可能就影响了方差齐性和独立性

不过违反分布假设的后果没有违反随机性那么糟糕。前文提到，违反了随机性假设，会使统计推断的结果无法解释，失去效果。但是违反了分布假设，只是使得推断的精度变低。即方差分析依然可以用，只是犯错的概率可能会上升。

2.1 违反独立性假设

独立性假设指：每一个观测值随机误差都与其他观测值的随机误差相互独立，也就是任意一个观测值与其他所有的观测值没有任何关系，不论是在组内还是组间。

所以，细分起来，独立性假设又可以分为两个部分：组内独立和组间独立

2.1.1 违反组内各观测值独立

组内指各实验处理内部。如果在分组时，恰好把一组很相似的被试放到了一组，那么，这组被试接受相同的处理得到的观测值很可能是有一定联系的。或者同一个处理的被试在进行测试时相互影响了（某人做的很快，使得其他被试也跟着做得很快）。或者同一个处理下的结果是由某个评分者进行打分，那么前一个得分很可能影响后一个得分。

如果组内是正相关，那么随着相关系数的上升，处理数的上升，或者样本量的上升，都会导致

错误膨胀。

如果是组内负相关，那么随着相关系数的上升，处理数的上升，或者样本量的上升，都会导致

错误降低。注意，这并不是一个好事情，因为你基本上不能拒绝零假设。

有兴趣的同学可以看看(Scariano & Davenport,1987）这篇文章

值得注意的是，样本量的增加并不会使情况变好，反而使其变得更差。因为样本越多，相关越明显。

所幸的是，组内独立的假设通常比较容易实现，只要通过精心的设计，排除明显的额外变量。基本上是能够满足这个假设的。

2.1.2 违反组间各观测值独立

这个情况很常见，因为被试内设计（重复测量设计）就是组间相关的。

重复测量设计在心理学研究中非常常见，它能够有效地控制个体差异，从而得出更有力的结论。

重复测量设计明显违反了组间观测值独立的假设，如果依然用常规的方差分析的话，此时会高估误差变异（组内变异）。因为各组的组内变异不再是独立的，某一组的组内变异必然受到了其他组的影响，需要把这个影响排除以后才能得到真正的误差变异。

不过统计学家已经找到了办法，如果不满足组间独立不要紧。将方差齐性假设扩展一下就行：球形假设（Sphericity）。通常采用的检验方法是Mauchly's test

球形假设实际上是复合对称性(compound symmetry)的弱化版本，

复合对称性(compound symmetry)指：

各组方差齐性
任意两组的协方差齐性

也就是说，假设有一个单因素四水平

的重复测量设计,其协方差矩阵要长这样

对角线全都相同，对角线以外的也全都相同。基本上不能满足

所幸，其弱化版本的Sphericity稍好一点，不计算各组数据的协方差矩阵，而是两组差值的协方差矩阵:虽然看上去貌似也很难满足，但实际上比起复合对称性要简单一些。可以看出，如果满足了复合对称性，肯定能满足球形假设，反之则不能。

(注意，这里的球形假设与因子分析的球形假设虽然很类似，但不是一回事，零假设都不一样)

Mauchly's test的具体计算就不说了，留给计算机就行。其零假设是：球形成立。也就是说，如果不能拒绝零假设（p>0.05）,那么我们就可以认为满足球形假设。

就算不满足球形假设也不要紧。此时虽然会使

错误增大（低估F临界值），但目前已经有方法进行修正了（虽然不完美，但总有方法了）

有兴趣的同学可以看这里，讲解球形假设的Sphericity

2.2 违反正态性假设

正态性假设指各观测值的随机误差都是服从正态分布的。所以，各处理的均值抽样分布能够服从正态分布。最终，能够使用F检验。

看上去正态性假设非常重要（确实也非常重要），如果违反了正态性假设，那么F检验的准确性就会受到影响。但实际上,影响不大

准确来说，在等组设计中，样本量足够大时，不需要担心正态性假设。

首先，根据中心极限定理，就算原始总体不是正态分布，只要样本量够大，那么样本均值的抽样分布就非常接近正态分布。在方差分析中，我们分析的本来就是均值。

其次，根据模拟研究的结果，虽然非正态分布会影响结果，但偏差很小，基本可以忽略

不过要注意的是，如果原始总体的偏态的，而且是非等组设计，那么此时的偏差就会大到不能忽略了。

2.3 违反方差齐性假设

方差齐性假设指任意一个观测值的误差项的方差都相同。同样也可以分成两部分：

2.3.1违反组内方差齐性

如果同一个处理组内部的方差不齐，说明这组被试来源于多个子群体，从而高估组内变异（高估误差项），power降低。

比较常见的一种情况是，有时研究为了平衡性别影响，通常在各实验处理中都分配了同等比例的男女被试。此时，在同一处理中的男性和女性在因变量上很可能就有两个不同的总体分布。这种情况下，如果不加以说明的话，研究的power就会降低。

要控制也很简单，只需要把性别也当做一个自变量纳入到分析中就行了。

如果子群体是分类的变量，那么可以通过将其当做自变量纳入分析来解决，如果子群体是连续变化的，例如同一个处理中，先后施测的被试，其分布随着测试时间进行变化。这种情况出现时，就需要用到协方差分析，其实原理跟性别的一样，只是此时将时间当做协变量，而不是自变量。

2.3.2 违反组间方差齐性

方差齐性检验是每一位学习过独立样本t检验和ANOVA的小伙伴都听说过的。

我们通常假设不同的处理仅仅影响了群体的均值，而不影响变异。但这个假设并不是100%成立的。例如：某个处理时低压力情景，另一个处理是高压力情景，因变量是完成任务效率。可以想象，在高压力情境下，由于各个被试的抗压能力不同，所以结果会比较分散（变异较大）；在低压力情境下，结果会比较集中（变异较小）。又或者在正确率为因变量的任务中，如果任务难度作为自变量，那么在低难度任务会出现天花板效应，高难度任务出现地板效应，都会使得变异变小；而中等难度任务则变异较大。

如果组间方差不齐的话，计算出来的临界值会偏小，更容易拒绝零假设，导致

错误上升。