方差分析

最新推荐文章于 2024-06-22 20:23:58 发布

米法·

最新推荐文章于 2024-06-22 20:23:58 发布

阅读量7.1k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/TSzero/article/details/117065736

版权

机器学习专栏收录该内容

26 篇文章 22 订阅

订阅专栏

一、简介

方差分析（ANOVA）是检验多个总体均值是否相等的方法。虽然它形式上是比较总体均值，但是本质上是研究变量之间的关系。这里的变量中，自变量是分类型的，因变量是数值型的，所研究的关系是是指自变量对因变量的影响。因此，我们可以说：

方差分析是通过检验各个总体均值是否相等来判断分类型自变量对数值型自变量是否有显著影响。

在方差分析中，所要检验的对象称为因子（factor），因子的不同表现称为水平（treatment），因子的每一个水平都可以看作一个总体，每个因子水平下得到样本数据称为观测值。

比如，为了比较药物 $A, B, C$ 对治疗某疾病的疗效，我们将实验对象分成三组，分别记录服用三种药物的治疗效果，得到三组样本: $X_1,\dots,X_{n_1};\ Y_1,\dots,Y_{n_2};\ Z_1,\dots,Z_{n_3}$
这个例子中，药物称为因子， $A, B, C$ 称为该因子的水平。

由于这个实验只涉及单个因子——“药物”，我们称之为单因子实验，对应的方差分析也叫单因子方差分析。此外，如果比较不同的药物和性别对疗效的影响，这就是两因子实验，相应的方差分析叫做两因子方差分析。不难推广到多因子实验。

二、基本思想

因子的不同水平下的均值会有差异，但这种差异有可能是由抽样误差带来的，所以需要检验这种差异是否显著。虽然我们感兴趣的是均值，但我们在判断时需要借助于方差（构造检验统计量），这也是方差分析这一名称的来源。

2.1 误差分解

来自于水平内部的数据误差称为组内误差，它是由抽样的随机性造成的随机误差。显然，组内误差只含有随机误差。

来自不同水平之间的数据误差称为组间误差，它可能由抽样造成的随机误差，也可能是由因素的不同水平造成的系统误差。组间误差是随机误差和系统误差的总和。

反映全部数据误差大小的平方和称为总平方和（SST），反映组内误差大小的平方和称为组内平方和（SSE），反映组间误差大小的平方和称为组间平方和（SSA）。换句话说，SST刻画全部数据的波动程度，SSE刻画组内数据的波动程度，SSA刻画不同组均值的差异引起的波动程度。

2.2 误差分析

如果因子的不同水平对每个水平下的均值没有影响，则组间误差只有随机误差而没有系统误差。组内误差和组间误差的均方之比应该接近1；否则它们的比值就会大于1，当大到某个程度时，就认为因子的不同水平之间存在着显著差异，也即自变量（示例中的药物）对因变量（示例中的效果）有显著影响。

由以上的分析可知，在方差分析中，要研究分类型自变量对因变量的影响，在形式上就转化为了检验不同总体（因素的不同水平）的均值是否相等。

2.3 模型假定

每个总体都应符合正态分布
各个总体的方差 $\sigma^2$ 必须相同
观测是独立的

三、单因子方差分析

3.1 模型

考虑一个因子 $A$ ，有 $r$ 个水平 $A_1,\dots,A_r$ ， $r\ge 2$ ，设在水平 $A_i$ 下重复进行了 $n_i$ 次实验，数据是 $y_{i1},y_{i2},\dots,y_{in_i}$ ，根据模型的假定，这些数据之间相互独立且 $y_{ij}\sim N(\mu_i,\sigma^2)$ ，其中 $\sigma$ 未知。我们关心的问题是 $\mu_i$ 是否全相等，即要检验 $H_0:\mu_1=\dots=\mu_r\ vs.\ H_1:\mu_i\text{不全相等}$

令 $n=\sum_{i=1}^r n_i$ ，即总共进行了 $n$ 次实验。令： $\bar y = \frac{1}{n}\sum_{i=1}^r\sum_{j=1}^{n_i}y_{ij},\ \bar y_{i\cdot}=\frac 1{n_i}\sum_{j=1}^{n_i}y_{ij},i=1,\dots,r$
这里， $\bar y$ 表示所有观测的平均值， $\bar y_{i\cdot}$ 表示水平 $A_i$ 下的观测平均值。那么三个误差分别为： $S_T^2=\sum_{i=1}^r\sum_{j=1}^{n_i}(y_{ij}-\bar y )^2,\ S_e^2=\sum_{i=1}^r\sum_{j=1}^{n_i}(y_{ij}-\bar y_{i\cdot} )^2,S_A^2 = \sum_{i=1}^r n_i(\bar y_{i\cdot} -\bar y)^2$
它们满足： $S_T^2 = S_e^2+S_A^2$
这是由于： $S_T^2=\sum\limits_{i=1}^r\sum\limits_{j=1}^{n_i}(y_{ij}-\bar y_{i\cdot}+\bar y_{i\cdot}-\bar y )^2\\ =\sum\limits_{i=1}^r\sum\limits_{j=1}^{n_i}(y_{ij}-\bar y_{i\cdot})^2+\sum\limits_{i=1}^r\sum\limits_{j=1}^{n_i}(\bar y_{i\cdot}-\bar y )^2+2\sum\limits_{i=1}^r(\bar y_{i\cdot}-\bar y )\sum\limits_{j=1}^{n_i}(y_{ij}-\bar y_{i\cdot})\\ =S_e^2+S_A^2$

我们已经知道当组内误差和组间误差 $S_A^2/S_e^2$ 大到某个程度时，就拒绝原假设，但为了确定具体的拒绝域，我们还需知道在原假设 $H_0$ 成立下， $S_A^2, S_e^2)$ 的分布。

3.2 分析

结论：考虑上述模型假设，有 $S_e^2/\sigma^2\sim \chi^2(n-r)$ 且 $S_e^2$ 与 $S_A^2$ 独立，如果 $H_0:\mu_1=\dots=\mu_r$ 成立，则有 $\frac{S_A^2}{\sigma^2}\sim \chi^2(r-1),\ F=\frac{S_A^2/(r-1)}{S_e^2/(n-r)}\sim F(r-1,n-r)$

证明：
由单个正态总体的抽样分布定理有 $V_i:=\frac{1}{\sigma^2} \sum_{j=1}^{n_i}(y_{ij}-\bar y_{i\cdot} )^2\sim \chi^2(n_i-1)$

由于 $y_{ij}$ 之间独立，所以 $V_i$ 相互独立。由卡方分布的可加性，我们有 $S_e^2/\sigma^2=\sum_{i=1}^r V_i\sim \chi^2(n-r)$

由于 $\{V_1,\dots,V_r\}$ 与 $\{\bar y_{1\cdot},\dots,\bar y_{r\cdot}\}$ 独立，而 $S_A^2$ 是 $\bar y_{i\cdot}$ 的函数，所以 $S_e^2$ 与 $S_A^2$ 独立

$H_0$ 成立时， $\mu_1=\dots=\mu_r=\mu$ ， $\bar y_{i\cdot}\stackrel{iid}{\sim} N(\mu,\sigma^2/n_i)$ ，令 $x_i = \sqrt{n_i}(\bar y_{i\cdot}-\mu)/\sigma\stackrel{iid}\sim N(0,1)$ ，此时有：
$S_A^2=\frac{\sum_{i=1}^rn_i(\bar y_{i\cdot} -\bar y)^2}{\sigma^2}$

$=\frac{\sum_{i=1}^r(\sqrt{n_i}\bar y_{i\cdot} -\sqrt{n_i}\sum_{j=1}^r \frac{n_j}{n}\bar y_{j\cdot} )^2}{\sigma^2}$

$=\frac{\sum_{i=1}^r[\sqrt{n_i}(\bar y_{i\cdot}-\mu) -\sqrt{n_i}\sum_{j=1}^r \frac{n_j}{n}(\bar y_{j\cdot}-\mu) ]^2}{\sigma^2}$

$=\sum\limits_{i=1}^r(x_i-\sqrt{n_i}\sum_{j=1}^r \frac{\sqrt{n_j}}{n}x_j)^2$

$=\sum\limits_{i=1}^rx_i^2-(\sum\limits_{i=1}^r\sqrt{n_i/n} x_i)^2$

$=||x_{1{:}r}||^2-(\alpha^\top x_{1{:}r})^2$

其中， $\alpha=(\sqrt{n_1/n},\dots,\sqrt{n_r/n})^\top$ ，注意到 $||\alpha|| = 1$ ，所以可构造一个正交矩阵 $A$ 使得 $A$ 的第一行为 $\alpha^\top$ 。

令 $z_{1{:}r}=Ax_{1{:}r}\sim N(0,I_r)$ ，此时 $z_{1{:}r}||^2=||x_{1{:}r}||^2$ ， $z_1=\alpha^\top x_{1{:}r}$ ，所以 $S_A^2=||z_{1{:}r}||^2-z_1^2=\sum_{i=2}^r z_i^2\sim \chi^2(r-1)$

由于 $S_e^2$ 与 $S_A^2$ 独立，所以 $F\sim F(r-1,n-r)$ 。

2.3 方差分析表

根据2.2中的结论，我们可以利用F检验，拒绝域为 $W=\{F>F_{1-\alpha}(r-1,n-r)\}$ 。可总结得到如下表格：

来源	自由度	平方和	均方和	$F$ 值
因子A	$r - 1$	$S_A^2=\sum_{i=1}^r n_i(\bar y_{i\cdot} -\bar y)^2$	$S_A^2/(r-1)$	$\frac{S_A^2/(r-1)}{S_e^2/(n-r)}$
误差	$n - r$	$S_e^2=\sum_{i=1}^r\sum_{j=1}^{n_i}(y_{ij}-\bar y_{i\cdot} )^2$	$S_e^2/(n-r)$
总和	$n - 1$	$S_T^2=\sum_{i=1}^I\sum_{j=1}^{n_i}(y_{ij}-\bar y )^2$	$S_T^2/(n-1)$

当 $p$ 值小于给定的显著性水平时，拒绝原假设，当接受原假设时，后续的处理可以参考方差分析——联立区间估计

三、两因子方差分析

3.1 模型

考虑因子 $A$ 有 $r$ 个水平： $A_1,\dots,A_r$ ，因子 $B$ 有 $s$ 个水平： $B_1,\dots,B_s$ 。设在水平 $A_i,B_j)$ 进行了 $n_{ij}$ 次实验，实验数据是 $y_{ij1},y_{ij2},\dots,y_{ijn_{ij}}$ ，假设这些数据相互独立且 $y_{ijk}\sim N(\mu_{ij} ,\sigma^2)$ ，其中 $\sigma$ 未知。为分析各个因子对指标的影响，令 $\mu = \frac{1}{rs}\sum_{i=1}^r\sum_{j=1}^s \mu_{ij}$ $\alpha_i = \frac 1 s\sum_{j=1}^s \mu_{ij}-\mu,\ i=1,\dots,r,$ $\beta_j = \frac 1 r \sum_{i=1}^r \mu_{ij}-\mu,\ j=1,\dots,s,$ $\lambda_{ij} = \mu_{ij}-\mu-\alpha_i-\beta_j$

其中， $\alpha_i$ 表示因子 $A$ 的第 $i$ 个水平 $A_i$ 的主效应， $\beta_j$ 表示因子 $B$ 的第 $j$ 个水平 $B_j$ 的主效应， $\lambda_{ij}$ 表示 $A_i$ 和 $B_j$ 下的交互作用的效应。

于是模型可以被表示为： $y_{ijk} = \mu+ \alpha_i+\beta_j +\lambda_{ij}+\epsilon_{ijk},\ \epsilon_{ijk}\stackrel{iid}{\sim}N(0,\sigma^2)$

3.2 检验

我们关心因子 $A$ 或者因子 $B$ 或者它们的交互作用 $A\times B$ 对指标有没有影响。对应的检验问题为： $H_0:\alpha_1=\dots=\alpha_r=0\ vs.\ H_1:\alpha_i\text{不全为0}$ $H_0:\beta_1=\dots=\beta_s=0\ vs.\ H_1:\beta_j\text{不全为0}$ $H_0:\lambda_{11}=\dots=\lambda_{rs}=0\ vs.\ H_1:\lambda_{ij}\text{不全为0}$

3.3 ANOVA

可记 $n_{i\cdot} = \sum\limits_{j=1}^s n_{ij},\ n_{\cdot j} =\sum\limits_{i=1}^r n_{ij},\ n = \sum\limits_{i=1}^r\sum\limits_{j=1}^s n_{ij}$ ，类似的，有下列ANOVA表：

来源	自由度	平方和	$F$ 值
$A$	$r - 1$	$S_A^2=\sum\limits_{i=1}^r n_{i\cdot}(\bar y_{i\cdot\cdot} -\bar y)^2$	$\frac{S_A^2/(r-1)}{S_e^2(n-rs)}$
$B$	$s - 1$	$S_B^2=\sum\limits_{j=1}^s n_{\cdot j}(\bar y_{\cdot j\cdot} -\bar y)^2$	$\frac{S_B^2/(s-1)}{S_e^2/(n-rs)}$
$A\times B$	$(r - 1) (s - 1)$	$S_{AB}^2=\sum\limits_{i=1}^r\sum\limits_{j=1}^s n_{ij}(\bar y_{ij\cdot} -\bar y)^2$	$\frac{S_{AB}^2/[(r-1)(s-1)]}{S_e^2/(n-rs)}$
$误差$	$n - r s$	$S_e^2=\sum\limits_{i=1}^r\sum_{j=1}^{s}\sum\limits_{k=1}^{n_{ij}}(y_{ijk}-\bar y_{ij\cdot})^2$
$总和$	$n - 1$	$S_T^2=\sum\limits_{i=1}^r\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{n_{ij}}(y_{ijk}-\bar y )^2$