统计|(可/无)重复双因素方差分析一般步骤及分析表

最新推荐文章于 2025-02-22 21:19:35 发布

执念斩长河

最新推荐文章于 2025-02-22 21:19:35 发布

阅读量1.9w

点赞数 4

分类专栏：线代概率文章标签：数据分析机器学习

本文链接：https://blog.csdn.net/m0_37149062/article/details/108297427

版权

线代概率专栏收录该内容

47 篇文章

订阅专栏

本文深入解析了双因素方差分析的基本概念与应用，包括无重复与可重复双因素方差分析的区别，详细步骤如假设设定、平方和与均方计算、统计决策过程，以及案例分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本博文源于《商务统计》中的方差分析，旨在解决讲述一般的双因素方差分析。双因素方差分析是建立在单因素方差分析的基础上。
统计|如何简单理解单因素方差分析

双因素方差分析简要介绍

双因素方差分析目的：分析两个因素对实验结果的影响。
双因素方差分析种类：如果两个因素对实验结果的影响是相互独立的，分别判断单独因素对实验数据的影响，这时叫做无重复双因素方差分析。 如果有联系，那么叫做可重复双因素方差分析。

双因素方差分析基本假定

每个总体都服从正态分布：对于因素的每一个水平，其观察值是来自正态分布总体的简单随机样本。
各个总体的方差必须相同：对于各组观察数据，是从具有相同方差的总体中抽取的。
观察值是独立的

双因素方差分析的数据结构

在这里插入图片描述

无重复双因素方差分析的一般步骤

提出假设

对行因素提出的假设：
$H_0:\mu_1=\mu_2=...=\mu_i=....=\mu_k(\mu_i为第i个水平的均值)\\ H1:\mu_i(i=1,2,....,k)不全相等$
对列因素提出的假设：
$H_0:\mu_1=\mu_2=...=\mu_j=....=\mu_r(\mu_j为第j个水平的均值)\\ H1:\mu_j(j=1,2,....,r)不全相等$

计算平方和(SS)

跟单因素方差分析类似，也是需要计算一大堆的平方和：
$SST=\sum_{i=1}^k\sum_{j=1}^r(x_{ij}-\bar{\bar{x}})^2\\ 行因素误差平方和 SSR=\sum_{i=1}^k\sum_{j=1}^r(x_{i·}-\bar{\bar{x}})^2\\ 列因素误差平方和 SSC=\sum_{i=1}^k\sum_{j=1}^r(x_{·j}-\bar{\bar{x}})^2\\ 随机误差项平方和 SSE=\sum_{i=1}^k\sum_{j=1}^r(x_{ij}-\bar{x_{i·}}-\bar{x_{·j}}+\bar{\bar{x}})^2$
这里与单因素方差分析一样有一条关系：SST=SSR+SSC+SSE

计算均方(MS)

误差平方和除以相应的自由度
三个平方和的自由度分别是：
$总误差平方和的SST的自由度为kr-1\\ 行因素平方和的SST的自由度为k-1\\ 列因素平方和的SST的自由度为r-1\\ 误差项平方和的SST的自由度为(k-1)\times{(r-1)}\\$
行因素的均方，记为MSR，计算公式为：

$MSR=\frac{SSR}{k-1}$
列因素的均方，记为MSC，计算公式为：

$MSC=\frac{SSC}{r-1}$
误差项的均方，记为MSE，计算公式为：

$MSE=\frac{SSE}{(k-1)(r-1)}$

计算检验统计量

检验行因素的统计量
$F_R=\frac{MSR}{MSE}\sim{F(k-1,(k-1)(r-1))}$
检验列因素的统计量
$F_C=\frac{MSC}{MSE}\sim{F(r-1,(k-1)(r-1))}$

双因素方差分析表

在这里插入图片描述

统计决策

将统计量的值F与给定的显著性水平 $\alpha$ 的临界值 $F_\alpha$ 进行比较，作出对原假设H_0的决策

根据给定的显著性水平 $\alpha$ 在F分布表中查找相应的临界值 $F_\alpha$
若 $F_R\gt{F_\alpha}$ ,拒绝原假设 $H_0$ ，表明均值之间的差异是显著的，即所检验的行因素对观察值有显著影响。
若 $F_C\gt{F_{\alpha}}$ ，拒绝原假设 $H_0$ ,表明均值之间有显著差异，即所检验的列因素对观察值有显著影响.

可重复双因素方差分析的一般步骤

平方和的计算

$x_{ijl}为对应于行因素的第i个水平和列因素的第j个水平的\\ 第l行的观察值\\ \bar{x_{i·}}为行因素的第i个水平的样本均值\\ \bar{x_{·j}}为列因素的第j个水平的样本均值\\ \bar{x_{ij}}对应行因素的第i个水平和列因素的第j个水平的\\ 组合的样本均值\\ \bar{\bar{x}}为全部n个观察值的总均值$

$SST=\sum_{i=1}^k\sum_{j=1}^r\sum_{l=1}^m(x_{ijl}-\bar{\bar{x}})^2\\ 行变量平方和 SSR=rm\sum_{i=1}^k(\bar{x}_{i·}-\bar{\bar{x}})^2\\ 列变量平方和 SSC=km\sum_{j=1}^r(\bar{x}_{·j}-\bar{\bar{x}})^2\\ 交互用平方和:SSRC=m\sum_{i=1}^k\sum_{j=1}^r(\bar{x}_{ij}-\bar{x}_{i·}-\bar{x}_{·j}+\bar{\bar{x}})^2\\ 误差项平方和 SSE=SST-SSR-SSC-SSRC$
这里与单因素方差分析一样有一条关系：SST=SSR+SSC+SSE+SSRC

可重复双因素方差分析表

在这里插入图片描述
一样的可以看临界值F和F理论值大小，也可以看P值

例子：品牌与地区是否影响彩电销售（单因素）

在这里插入图片描述

提出假设

对品牌因素提出的假设为
$H_0:\mu_1=\mu_2=\mu_3=\mu_4(品牌对销售量无显著影响)\\ H_1:\mu_i(i=1,2,...,4)不全相等(有显著影响)$
对地区因素提出的假设为

$H_0:\mu_1=\mu_2=\mu_3=\mu_4=\mu_5(地区对销售量无显著影响)\\ H_1:\mu_j(j=1,2,...,5)不全相等(有显著影响)$

检验统计量

通过相应的统计软件进行绘制输出，
在这里插入图片描述

先比较 $F 与 F c r i t$ 的值大小
或者比较P-value跟0.05对比

统计决策

9.46E-05小于0.05说明可以拒绝原假设，即品牌跟销量有显著性差异，0.14367>0.05，不拒绝原假设，即地区对销量没有显著性差异。数学结论如下：
$F_R=18.10777\gt{F_\alpha}=3.4903,拒绝原假设H_0,说明彩电的品牌对销售量有显著影响。\\ F_C=2.100846\lt{F_\alpha}=3.2592,不拒绝原假设H_0,无证据表明销售地区对彩电的销售量有显著影响$