概率统计（四）方差分析

最新推荐文章于 2024-09-09 01:00:00 发布

懒得聪明..

最新推荐文章于 2024-09-09 01:00:00 发布

阅读量5.8k

点赞数

分类专栏：概率统计文章标签： python 数据分析统计学

本文链接：https://blog.csdn.net/murphy852/article/details/106995743

版权

本文深入介绍了方差分析的基本概念，以焦虑症治疗实验为例，阐述了单因素和双因素方差分析的原理和应用。在单因素方差分析中，通过F检验评估不同治疗方案的显著性差异；双因素方差分析则考虑两个或更多因素的影响，包括主效应和交互效应。文章还探讨了混淆因素、协变量和多元方差分析等进阶主题，并提供了Python实现的简要介绍。

摘要由CSDN通过智能技术生成

对方差分析的简单理解

方差分析主要研究分类变量作为自变量时，对因变量的影响是否是显著的。
以焦虑症治疗为例，现有两种治疗方案：认知行为疗法（CBT）和眼动脱敏再加工法（EMDR）。我们招募10为焦虑症患者作为志愿者，随机分配一半的人接受为期五周的CBT，另一半接受为期五周的EMDR。在治疗结束时，要求每位患者都填写状态特质焦虑问卷（STAI），也就是一份焦虑度测量的自我评测报告。

在这个实验设计中，治疗方案是两水平（CBT、EMDR）的组间因子，STAI是因变量，治疗方案是自变量。
由于在每种治疗方案下观测数相等，因此这种设计也称为均衡设计，若观测数不同，则称作非均衡设计。
因为仅有一个类别型变量，因此实验设计又被称为单因素方差分析，或进一步称为单因素组间方差分析，方差分析主要通过F检验来进行效果评测，若治疗方案的F检验显著，则说明五周后两种疗法的STAI得分均值不同。

假设对治疗方案差异和它随时间的改变都感兴趣，则将两个设计结合起来即可：随机分配五位患者到CBT，另外五位到EMDR，在五周和六个月后分别评价他们的STAI结果。

此时时间是两水平（五周、六月）的组内因子，因为每位患者在所有水平下都进行了测量，所以这种统计设计称单因素组内方差分析。
又由于每个受试者都不止一次被测量，也称作重复测量方差分析。

先假设对治疗方案差异和它随时间的改变都感兴趣则将两个设计结合起来即可：随机分配五位患者到CBT，另外五位到EMDR，在五周和六个月后分别评价它们的STAI结果。

疗法和时间都作为因子时，我们既可分析疗法的影响和时间的影响，又可分析疗法和时间的交互影响，前两个称作主效应，交互部分称作交互效应
当设计包含两个甚至更多的因子时，便是因素方差分析设计，比如两因子时称作双因素方差分析，三因子时称作三因素方差分析，以此类推。
若因子设计包括组内和组间因子，又称作混合模型方差分析，当前的例子就是典型的双因素组合模型方差分析。

现将上面的实验设计稍微做些扩展，众所周知，抑郁症对病症治疗有影响，而且抑郁症和焦虑症常常同时出现，即使受试者被随机分配到不同的治疗方案中，在研究开始时，两组疗法中的患者抑郁水平就可能不同，任何治疗后的差异都有可能是最初的抑郁水平不同导致的，而不是实验操作的问题。

抑郁症也可以解释因变量的组间差异，因此它常称为混淆因素，由于你对抑郁症不感兴趣，因此它也被称为干扰变数。
假设招募者使用能以一种的自我测评报告，比如白氏抑郁症量表（BDI）记录了他们的抑郁水平，那么你可以在评测疗法类型的影响前，对任何抑郁水平的组间差异进行统计性调整，本案例中BDI为协变量，该设计为协方差分析（ANCOVA）。
以上设计只记录了单个因变量情况（STAI），为增强研究的有效性，可以对焦虑症进行其他的测量，当因变量不止一个时，设计被称作多元方差分析（MANOVA），若协变量也存在，那么就叫多元协方差分析（MANCOVA）。

单因素方差分析

1.推导过程

假设我们现在有若干品种的小麦，要在某一地区播种，我们想知道这些品种的产量有没有显著区别，为此我们先设计了一个田间实验，取一大块地将其分成形状大小都相同的n小块，设供选择的,品种有k个，打算在其中的n₁小块种植品种1，n₂小块种植品种2等等，n₁ + n₂ +… + n_n = n。

接下来我们使用方差分析的方法去看不同小麦品种的产量是否有显著差异：

设问题中涉及一个因素A，有k个水平，以Y_ij记第i个水平的第j个观察值，如上例Y_ij是种植品种i的第j小块地上的亩产量，模型为 $Y_{ij} = a_i + e_{ij} ，i = 1, ... , k，j = 1, ... , n_i$
a_i表示水平i的理论平均值，称为水平i的效应。在小麦例子中，a_i就是品种i的平均亩产量，e_ij就是随机误差，并且我们假定 $E(e_{ij}) = 0,0 < Var(e{ij}) = δ^2 < \infty，一切e_{ij}独立同分布$
因素A的个水平高低优劣，取决于其理论平均a_i的大小。如果a_i全相同，表示因素A对所考察的指标Y其实无影响，这时我们说因素A的效应不显著，否则说它显著，因此我们的H₀假设为： $H_0 ：a_1 = a_2 = a_3 = ... = a_k$
为检验该假设，我们要分析为什么各个Y_ij会有差异？从模型看，一是各a_i可能有差异，若a₁ > a₂，则Y_1j倾向于大于Y_2j；二是随机误差的存在，这一分析启发了如下的想法：找一个衡量全部Y_ij的变异的量： $\sum_{i=1}^k \sum_{j=1}^{n_i} (Y_{ij} - \tilde{Y}) ^2，\tilde{Y} = \sum_{i=1}^k \sum_{j=1}^{n_i} Y_{ij} / n$ SS愈大，表示Y_ij之间的差异越大
接下来把SS分为两部分，一部分表示随机误差的影响，记为SS_e；另一部分表示因素A的各水平理论平均值a_i不同带来的影响，记为SS_A
关于SS_e，先固定一个i，此时对应的所有观测值Y_i1,Y_i2,…,Y_in，他们之间的差异与每个水平的理论平均值不等无关，取决于随机误差，反映这些观察值差异程度的量是 $\sum_{j=1}^{n_i}(Y_{ij} - \tilde Y)^2$ ，其中 $\tilde Y_i = (Y_{i1} + Y_{i2} + ... + Y_{in}) / n_i，i = 1,2,...,n$