概率统计——方差分析

最新推荐文章于 2023-11-24 16:17:22 发布

哎呦哥哥、

最新推荐文章于 2023-11-24 16:17:22 发布

阅读量886

点赞数

分类专栏：概率论文章标签：概率论数据挖掘

本文链接：https://blog.csdn.net/jm863936705/article/details/107033029

版权

概率论专栏收录该内容

4 篇文章 1 订阅

订阅专栏

致敬：

罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher, R. A. Fisher, 1890年2月17日- 1962年7月29日)

基本概念

方差分析这部分所涉及到的概念名词有很多，不过是看着唬人，实际上，名词起的非常直观清楚，比如，双因素混合模型方差分析这个名词，根据名字就知道，这个方差分析有两个因素，而是是混合模型的，说明还有混淆因素的存在。

以焦虑症治疗为例，有两种治疗方案，方案A和方案B。有10个焦虑症志愿者，被随机分配一半接受五周的A方案治疗，另一半接受五周的B方案治疗。在治疗结束时，使用某种专业方法进行评测。

名词	概念
方差分析 (Analysis of Variance，ANOVA)	主要研究分类变量作为自变量时，对因变量的影响是否是显著的。
组间因子	在上例中，治疗方案就是组间因子。我的理解就是试验小组划分的主要因素。
因变量	跟数学上的意义差不多，上例中，最后的评测结果就是因变量。
自变量	跟数学上的意义差不多，上例中，治疗方案就是自变量。
均衡设计 (Balanced Design)	每组中的试验元素相等，这时的设计就是均衡设计。上例中，也就是每组的观测人数相等。
非均衡设计 (Unbalanced Design)	每组中的试验元素不相等，这时的设计就是非均衡设计。
单因素组间方差分析 (单因素方差分析) (One-way ANOVA)	仅有一个类别型变量，也就是只有一个因子，而且试验元素被分成了不同的组，每个元素只被试验一次。在上例中，只有“治疗方案”这一个自变量。
组内因子	上例中，10个人全部接受A方案治疗，分别测试治疗5周和6个月的治疗效果，此时的“时间”就是组内因子。虽然看上去不同的时间是不同的组，但是这个“组”的概念，我的理解是针对“被试验的元素”分成的多少“组”，这个例子说的就是“这10个人在一个组，被试验了两次”。
单因素组内方差分析 (重复测量方差分析)	“被试验因素”在所有的组内因子下都进行了试验，所以试验次数不止一次，所以就是重复测量方差分析。
主效应	如果5个人用A方案，5个人用B方案，且同时观测不同时间对治疗效果的影响，那么此时有两个因子。 “疗法”和“时间”这两个因子就是主效应。
交互效应	“疗法”和“时间”之间有交互影响，这个交互部分就是交互效应。
N因素方差分析	设计包含N个因子时，就是N元素方差分析
混合模型方差分析	当因子既有组间因子，又有组内因子的时候，就是混合模型
N因素混合模型方差分析	这个概念其实就是上面两个概念的组合。
混淆因素	在对“焦虑症”这个病进行试验的过程中，会受到“抑郁症”的影响，“抑郁症”这个因素就是混淆因素。
干扰变数 (Nuisance Variable)	如果对上面这个混淆因素不感兴趣，那么就是干扰变数。
协变量	如果对混淆因素感兴趣，如果在试验前，对“抑郁症”的情况进行科学测量，那么这个“测量值”就是协变量。
协方差分析 (ANCOVA)	一旦设计被引入了协变量，那么该设计就是协方差分析。
多元方差分析 (MANOVA)	当因变量不止一个的时候，设计被称作多元方差分析。【注意】这里的“元”指的是因变量。例子中，就是治疗效果，不要和自变量混淆。
多元协方差分析 (MANCOVA)	以上两个概念的组合。

单因素方差分析

假设我们现在有若干品种的小麦，要在某一地区播种，我们想知道这些品种的小麦的产量有没有显著区别，为此我们设计一个田间试验，取一大块地将其分成形状大小都相同的 $n$ 小块。设供选择的品种有 $k$ 个，我们打算其中的 $n_1$ 小块种植品种1， $n_2$ 小块种植品种2，等等。

接下来，使用方差分析的方法来看不同品种小麦的产量是否有显著差异。

设问题中涉及一个因素 $A$ ，有 $k$ 个水平（种子品种），以 $Y_{ij}$ 记第 $i$ 个水平的第 $j$ 小块地上的亩产量。模型为： $Y_{ij}=a_i+e_{ij},j=1,\cdots,n,i=1,\cdots,k\space \space \space \space \space (2.1)$ 其中 $a_i$ 表示水平 $i$ 的理论平均值（小麦品种 $i$ 的平均亩产量），称为水平 $i$ 的效应， $e_{ij}$ 就是随机误差。我们假定： $E(e_{ij})=0,0<Var(e_{ij})=\sigma^2<\infty,一切e_{ij}独立同分布\space \space \space \space \space (2.2)$
因素 $A$ 的各水平的高低优劣，取决于其理论平均 $a_i$ 的大小。所以，我们把着眼点放在 $a_i$ 是否相同，若相同，则因素 $A$ 对所考察的指标 $Y$ 无影响，也就是因素 $A$ 的效应不显著，否则显著。我们把所要检验的假设写为： $H_0:a_1=a_2=\cdots=a_k \space \space \space \space \space (2.3)$
之所以各个 $Y_{ij}$ 会有差异，无非两个原因：意识各 $a_i$ 可能有差异；二是随机误差( $e_{ij}$ )的存在。通过这一分析，我们有了如下想法：找一个衡量全部 $Y_{ij}$ 的变异的量： $SS=\sum_{i=1}^k \sum_{j=1}^{n_i}(Y_{ij}-\bar Y)^2,\space \space \bar Y=\sum_{i=1}^k \sum_{j=1}^{n_i}\frac {Y_{ij}}{n}\space \space \space \space \space (2.4)$ $S S$ 越大，表示 $Y_{ij}$ 之间的差异越大。
接下来，把 $S S$ 分为两部分，一部分表示随机误差的影响，记为 $SS_e$ ；另一部分表示因素 $A$ 的各水平理论平均值 $a_i$ 不同带来的影响，记为 $SS_A$ .
关于 $SS_e$ ，先固定一个 $i$ ，此时对应的所有观测值 $Y_{i1},Y_{i2},\cdots,Y_{in}$ ，它们之间的差异与每个水平的理论平均值不等无关，而是取决于随机误差，反映这些观察值差异程度的量是： $\sum_{j=1}^{n_i}(Y_{ij}-\bar Y_i)^2$ 其中， $\bar Y_i= \frac {Y_{i1}+Y_{i2}+\cdots+Y_{in}}{n_i},i=1,2,\cdots,n \space \space \space \space \space (2.5)$ $\bar Y_i$ 可以视为对 $a_i$ 的估计。把上述平方和做累加得： $SS_e=\sum_{i=1}^k \sum_{j=1}^{n_i}(Y_{ij}-\bar Y_i)^2\space \space \space \space \space (2.6)$
可求得 $SS_A$ ：
$SS_A=SS-SS_e$
$=\sum_{i=1}^k \sum_{j=1}^{n_i}(Y_{ij}-\bar Y)^2-\sum_{i=1}^k \sum_{j=1}^{n_i}(Y_{ij}-\bar Y_i)^2$
$=\sum_{i=1}^k \sum_{j=1}^{n_i}\bigg((Y_{ij}-\bar Y_i)-(\bar Y_i-\bar Y)\bigg)^2-\sum_{i=1}^k \sum_{j=1}^{n_i}(Y_{ij}-\bar Y_i)^2$
$=\sum_{i=1}^k \sum_{j=1}^{n_i}\bigg((Y_{ij}-\bar Y_i)^2-2(Y_{ij}-\bar Y_i)(\bar Y_i-\bar Y)+(\bar Y_i-\bar Y)^2\bigg)-\sum_{i=1}^k \sum_{j=1}^{n_i}(Y_{ij}-\bar Y_i)^2$
$=\sum_{i=1}^k \sum_{j=1}^{n_i}(Y_{ij}-\bar Y_i)^2-2\sum_{i=1}^k \sum_{j=1}^{n_i}\bigg((Y_{ij}-\bar Y_i)(\bar Y_i-\bar Y)\bigg)+\sum_{i=1}^k \sum_{j=1}^{n_i}(\bar Y_i-\bar Y)^2-\sum_{i=1}^k \sum_{j=1}^{n_i}(Y_{ij}-\bar Y_i)^2$
$=\sum_{i=1}^k \sum_{j=1}^{n_i}(\bar Y_i-\bar Y)^2-2\sum_{i=1}^k\bigg((\bar Y_i-\bar Y)\sum_{j=1}^{n_i}(Y_{ij}-\bar Y_i)\bigg)\space\space\space\space\space\space(ps:\sum_{j=1}^{n_i}(Y_{ij}-\bar Y_i)=0)$
$=\sum_{i=1}^{k}n_i(\bar Y_i-\bar Y)^2\space\space\space\space\space(2.7)$
因为 $\bar Y_i$ 可以视为对 $a_i$ 的估计， $a_i$ 的差异越大， $\bar Y_i$ 之间的差异也越大，所以 $SS_A$ 可以用来衡量不同水平之间的差异程度。
在统计学上，通常称 $S S$ 为总平方和， $SS_A$ 为因素 $A$ 的平方和， $SS_e$ 为误差平方和，分解式 $SS=SS_A+SS_e$ 为该模型的方差分析。
基于上面的分析，我们可以得到一个检验方法：
当比值 $\frac {SS_A}{SS_e}$ 大于某一给定界值时，否定 $H_0$ ，否则就接受 $H_0$
为了构造 $F$ 分布的检验统计量，我们假定随机误差 $e_{ij}$ 满足正态分布 $N(0,\sigma^2)$ ，同时我们也假定观察值 $Y_{ij}$ 符合正态分布，此时，记： $MS_A=\frac {SS_A}{k-1},MS_e=\frac {SS_e}{n-k} \space \space \space \space \space (2.8)$ 当 $H_0$ 成立时，有： $\frac {MS_A}{MS_e} \sim F_{k-1,n-k} \space \space \space \space \space (2.9)$ 在给定显著性水平 $\alpha$ 时，即得假设 $H_0$ 的检验如下： $当\frac {MS_A}{MS_e}≤F_{k-1,n-k}(\alpha)时，接受H_0，不然拒绝H_0\space \space \space \space \space(2.10)$
$MS_A$ 被称为因素 $A$ 平均平方和，被除数 $k - 1$ 称为因素 $A$ 平均平方和的自由度； $MS_e$ 被称为随机误差的平均平方和， $n - k$ 称为随机误差的平均平方和的自由度。
单因素方差分析的方差分析表如下：

项目	$S S$	自由度	$M S$	$F$ 比	显著性
$A$	$SS_A$	$k - 1$	$MS_A$	$\frac {MS_A}{MS_e}$	，*，无
误差	$SS_e$	$n - k$	$MS_e$
总和	$S S$	$n - 1$

上表中，对于显著性：
$F_{k-1,n-k}(0.05)=c_1,F_{k-1,n-k}(0.01)=c_2;$
- 若 $\frac {MS_A}{MS_e}>c_2$ ，用**表示，表明 $A$ 因素的效应是高度显著的，即在 $\alpha=0.01$ 的显著水平下，拒绝原假设。
- 若 $c_2<\frac {MS_A}{MS_e}<c_1$ ，用*表示。
- 若 $\frac {MS_A}{MS_e}>c_1$ ，不显著。

评估检验的假设条件

根据方差分析的推导，我们知道，方差分析结果的有效性是建立在一系列假设条件之上的，因此，在我们使用方差分析模型时，需要评估进行方差分析的数据，是否符合模型使用的假设条件。

检验
正态性检验	在建立模型时，我们假设变量是服从正态分布的，需要进行正态性检验。
$K - S t e s t$	用来检验数据是否符合某种分布的一种非参数检验。其原假设 $H_0$ ：两个数据分布一致或数据符合理论分布。
$A n d e r s o n - D a r l i n g t e s t$	用来检验给定的样本是否来自于某个确定的概率分布的统计检验方法。若结果种的p值大于0.05，则数据符合正态分布。
$S h a p i r o - W i l k t e s t$	在小样本的情况下，是一个很普通的正态性检验方法。原假设 $H_0$ ：数据符合正态分布。
$L i l l i e f o r t e s t$	原假设 $H_0$ ：数据符合正态分布。
方差齐性检验	因为方差分析的实质是检验多个水平的均值是否有显著差异，如果各个水平的观察值方差差异太大，只检验均值之间的差异就没有意义了，所以要进行方差齐性检验。

双因素方差分析

双因素方差分析与多因素方差分析在原理上是相似的。

依然以田间试验的例子。设两个因素 $A, B$ ，分别有 $k, l$ 个水平。 $A$ 的水平 $i$ 与 $B$ 的水平 $j$ 的组合记为 $(i, j)$ ，其试验结果记为 $Y_{ij},i=1,\cdots,k,j=1,\cdots,l$ .统计模型为： $Y_{ij}=\mu+a_i+b_j+e_{ij},i=1,\cdots,k,j=1,\cdots,l（3.1）$
其中， $e_{ij}$ 为随机误差，它包含了未加控制的因素 $(A, B 以外的因素)$ 及大量随机因素的影响。假定： $E(e_{ij})=0,0<Var(e_{ij})=\sigma^2<\infty,一切e_{ij}独立同分布（3.2）$
另一部分 $\mu+a_i+b_j$ ，它显示水平组合 $(i, j)$ 的平均效应。可以分为三部分：
- $\mu$ 是总平均（一切水平组合效应的平均），是一个基准。
- $a_i$ 表示由 $A$ 的水平 $i$ 带来的增加部分，称为因素 $A$ 的水平 $i$ 的效应。
- $b_j$ 表示由 $B$ 的水平 $j$ 带来的增加部分，称为因素 $B$ 的水平 $j$ 的效应。
调整 $\mu$ 的值，我么可以补充要求： $a_1+\cdots+a_k=0,b_1+\cdots+b_l=0（3.3）$ 如果上式不成立，则分别把 $\mu$ 换为 $(\mu+\bar a+\bar b)$ ， $a_i$ 换为 $(a_i-\bar a)$ ， $b_j$ 换为 $(b_j-\bar b)$ ，则原式不变且上式成立。
上式给了 $a_i,b_j$ 的意义一种更清晰的解释： $a_i>0$ 表示 $A$ 的水平 $i$ 的效应在 $A$ 的全部水平的平均效应之上， $a_i<0$ 则相反。
上式也给了 $\mu,a_i,b_j$ 的一个适当的估计法：把 $Y_{ij}$ 对一切 $i, j$ 相加，有： $\sum_{i=1}^k \sum_{j=1}^l Y_{ij}=kl\mu+\sum_{i=1}^k\sum_{j=1}^l e_{ij}（3.4）$ 由(3.2)得： $\bar Y=\sum_{i=1}^k \sum_{j=1}^l \frac {Y_{ij}}{kl}（3.5）$ 是 $\mu$ 的一个无偏估计。其次，有： $\sum_{j=1}^l Y_{ij}=l\mu+la+\sum_{j=1}^l e_{ij}$ 于是，记： $\bar Y_i=\sum_{j=1}^l \frac {Y_{ij}}{l},\bar Y_j=\sum_{i=1}^k \frac {Y_{ij}}{k}（3.7）$
由(3.7)知， $\bar Y_j$ 为 $\mu+a_i$ 的一个无偏估计。于是得到 $s_i$ 的一个无偏估计为： $\hat {a_i}=\bar Y_i-\bar Y,i=1,\cdots,k（3.8）$ 同理， $\hat {b_j}=\bar Y_j-\bar Y,j=1,\cdots,l（3.9）$ $\hat {a_i},\hat {b_j}$ 适合约束条件(3.3)。
下面进行方差分析，要设法把总平方和 $SS=\sum_{i=1}^k\sum_{j=1}^l(Y_{ij}-\bar Y)^2$ 分解为三部分： $SS_A,SS_B,SS_e$ ，分别表示因素 $A, B$ 和随机误差的影响。
这种分解的主要目的是假设检验： $H_{0A}:a_1=\cdots=a_k=0（3.10）$ 和 $H_{0B}:b_1=\cdots=b_k=0（3.11）$
$H_{0A}$ 成立表示因素 $A$ 对指标无影响。在实际问题中，绝对无影响的场合很少见，但如果影响甚小，以至于被随机误差所掩盖的时候，这种影响事实上也是等于没有的。
因此，拿 $SS_A$ 和 $SS_e$ 的比作为检验统计量正符合这一想法。
接下来是方差分解的小技巧： $Y_{ij}-\bar Y=(\bar Y_i-\bar Y)+(\bar Y_j-\bar Y)+(Y_{ij}-\bar Y_i - \bar Y_j + \bar Y)$ 两边平方，对 $i, j$ 求和，结合约束条件(3.3)，注意到： $\sum_{i=1}^k(\bar Y_i-\bar Y)=0.\sum_{j=1}^l(\bar Y_j-\bar Y)=0.$ $\sum_{i=1}^k(Y_{ij}-\bar Y_i-\bar Y_j + \bar Y)=\sum_{j=1}^l(Y_{ij}-\bar Y_i - \bar Y_j + \bar Y)=0$ 即知，所有交叉积之和皆为0，而得到： $SS=l\sum_{i=1}^k(\bar Y_i-\bar Y)^2+k\sum_{j=1}^l(\bar Y_j-\bar Y)^2+\sum_{i=1}^k \sum_{j=1}^l(Y_{ij}-\bar Y_i-\bar Y_j+\bar Y)^2=SS_A+SS_B+SS_c（3.12）$ 其中，第一个平方和可以作为因素 $A$ 的影响的衡量；第二个平方和可以作为因素 $B$ 的影响的衡量；第三个平方和可以作为随机误差的影响。
另外，由模型(3.1)以及约束条件(3.3)，容易知道： $Y_{ij}-\bar Y_i-\bar Y_j+\bar Y=(\mu+a_i+b_j+e_{ij})-(\mu+a_i+\bar e_i)-(\mu+b_j+\bar e_j)+(\mu+\bar e)=e_{ij}-\bar e_i-\bar e_j+\bar e （3.13）$ 这里面已经毫无 $\mu,a_i,b_j$ 的影响，而只含随机误差。
得到分解式（3.12）后，我们就可以像单因素情况那样，写出方差分析表：
$SS_A,SS_B$ 自由度分别为其水平数减去1；总和自由度为全部观察值数目 $k l$ 减去1；剩下的就是误差平方和自由度： $(k l - 1) - (k - 1) - (l - 1) = (k - 1) (l - 1)$

双因素方差分析表如下：

项目	$S S$	自由度	$M S$	$F$ 比	显著性
$A$	$SS_A$	$k - 1$	$MS_A$	$\frac {MS_A}{MS_e}$	，*，无
$B$	$SS_B$	$l - 1$	$MS_B$	$\frac {MS_B}{MS_e}$
误差	$SS_e$	$(k - 1) (i - 1)$	$MS_e$
总和	$S S$	$k l - 1$

在采纳模型（3.1）时，我们引进了一种假定，即：因素A的各水平的优劣比较，与因素B处于哪一个水平无关，反之亦然。
但是，在一般情况下，A和B两因子有“交互作用”，这时，在模型（5.13）中，还要加上表示交互作用的项 $c_{ij}$ ，这时，统计分析以及分析结果都变得很复杂。
至于，交互作用是否需要考虑，很大程度上，取决于问题的实际背景和经验。有时，通过试验也可以看出，比如，如果方差 $\sigma^2$ 的估计 $MS_e$ 反常地大，则有可能是交互作用导致的。

哎呦哥哥、

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
概率统计——方差分析

致敬：罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher, R. A. Fisher, 1890年2月17日- 1962年7月29日)基本概念方差分析这部分所涉及到的概念名词有很多，不过是看着唬人，实际上，名词起的非常直观清楚，比如，双因素混合模型方差分析这个名词，根据名字就知道，这个方差分析有两个因素，而是是混合模型的，说明还有混淆因素的存在。以焦虑症治疗为例，有两种治疗方案，方案A和方案B。有10个焦虑症志愿者，被随机分配一半接受五周的A方案治疗，另一半接受五周的B方案治疗
复制链接

扫一扫