东北大学应用数理统计第四章知识点总结——方差分析

方差分析

一、基本概念

1.1 定义
  • 研究一个(或多个)分类自变量如何影响一个数值因变量的统计分析方法
1.2 目的
  • 判断某些因素对于我们感兴趣的因变量是否具有“显著”的影响
  • 如果因素间有交互效应,寻找最佳搭配方案
1.3 特点
  • 方差分析与一般的假设检验:方差分析处理的是多个均值的情况
  • 方差分析与回归、相关分析:回归与相关处理的是两个数值变量的问题,相应的散点在 x x x 轴上具有顺序(从小到大),而方差分析的数据在 x x x 轴上可以任意交换位置。
1.4 数学模型

1、定义

  • 响应变量(因变量):进行随机试验所考察的数值指标
  • 因素或因子(自变量):影响因变量的各不同分类原因
  • 水平:各个因素所构成的组或者类型

2、例子:考察小麦产量( y y y)对于品种和施肥量的关系(两个不同的小麦品种,三个不同的施肥等级)

  • 品种是否对产量有影响 ⇔ H 01 : α 1 = α 2 \Leftrightarrow H_{01}: \alpha_1 = \alpha_2 H01:α1=α2
  • 施肥量是否对产量有影响 ⇔ H 02 : β 1 = β 2 = β 3 \Leftrightarrow H_{02}: \beta_1 = \beta_2 = \beta_3 H02:β1=β2=β3
    Y = X β + ε Y = X\beta + \varepsilon Y=Xβ+ε
    { y 11 = θ 0 + α 1 + β 1 + ε 11 y 12 = θ 0 + α 1 + β 2 + ε 12 y 13 = θ 0 + α 1 + β 3 + ε 13 y 21 = θ 0 + α 2 + β 1 + ε 21 y 22 = θ 0 + α 2 + β 2 + ε 22 y 23 = θ 0 + α 2 + β 3 + ε 23 \begin{cases} y_{11} = \theta_0 + \alpha_1 + \beta_1 + \varepsilon_{11} \\ y_{12} = \theta_0 + \alpha_1 + \beta_2 + \varepsilon_{12} \\ y_{13} = \theta_0 + \alpha_1 + \beta_3 + \varepsilon_{13} \\ y_{21} = \theta_0 + \alpha_2 + \beta_1 + \varepsilon_{21} \\ y_{22} = \theta_0 + \alpha_2 + \beta_2 + \varepsilon_{22} \\ y_{23} = \theta_0 + \alpha_2 + \beta_3 + \varepsilon_{23} \end{cases} y11=θ0+α1+β1+ε11y12=θ0+α1+β2+ε12y13=θ0+α1+β3+ε13y21=θ0+α2+β1+ε21y22=θ0+α2+β2+ε22y23=θ0+α2+β3+ε23

二、单因素方差分析

2.1 数据的结构

单因素方差分析数据的结构
y i j = β i + ε i j ,        1 ≤ j ≤ n i 、 1 ≤ i ≤ r y_{ij} = \beta_i + \varepsilon_{ij} ,\,\,\,\,\,\, 1 \le j \le n_i 、1 \le i \le r yij=βi+εij,1jni1ir
主要任务:

  • 检验假设: H 0 : β 1 = β 2 = . . . = β r H_0: \beta_1 = \beta_2 = ... = \beta_r H0:β1=β2=...=βr
  • 作出未知参数: β 1 , β 2 , . . . , β r \beta_1, \beta_2, ... , \beta_r β1,β2,...,βr 以及 σ 2 \sigma^2 σ2 估计
2.2 因子效应与误差方差的估计
  • 按照模型的假定,因变量的观察值来自 r r r 个不同的正态总体
  • y 11 , . . . , y 1 n 1 y_{11}, ..., y_{1n1} y11,...,y1n1 来自总体 N ( β 1 , σ 2 ) N(\beta_1, \sigma^2) N(β1,σ2)
  • 未知参数 β 1 , β 2 , . . . , β r \beta_1, \beta_2, ... , \beta_r β1,β2,...,βr 的估计就采用各个总体的样本均值
2.3 相关定义
  • 因素各水平效应的估计采用各个组内平均
    β i ^ = y i ‾ = 1 n i ∑ j = 1 n i y i j ⇔ N ( β i , σ 2 n i ) , 1 ≤ i ≤ r \hat{\beta_i} = \overline{y_i} = \frac{1}{n_i} \sum_{j=1}^{n_i} y_{ij} \Leftrightarrow N(\beta_i, \frac{\sigma^2}{n_i}), 1 \le i \le r βi^=yi=ni1j=1niyijN(βi,niσ2),1ir
  • 误差方差 σ 2 \sigma^2 σ2 的估计利用残差平方和
    σ ^ 2 = R S S n − r = 1 n − r ∑ i = 1 r ∑ j = 1 n s ( y i j − y i ‾ ) 2 \hat{\sigma}^2 = \frac{RSS}{n-r} = \frac{1}{n-r} \sum_{i=1}^r \sum_{j=1}^{n_s} (y_{ij} - \overline{y_i})^2 σ^2=nrRSS=nr1i=1rj=1ns(yijyi)2
    ( n − r ) σ ^ 2 σ 2 ⇔ χ 2 ( n − r ) \frac{(n-r)\hat{\sigma}^2}{\sigma^2} \Leftrightarrow \chi^2(n-r) σ2(nr)σ^2χ2(nr)
  • β 1 ^ , β 2 ^ , . . . , β r ^ , σ ^ 2 \hat{\beta_1}, \hat{\beta_2}, ... , \hat{\beta_r}, \hat{\sigma}^2 β1^,β2^,...,βr^,σ^2 之间相互独立
2.4 方差分析平方和分解公式
  • 总平方和:表示因变量总的变化。(因子不同的水平,随机误差)
    T S S = ∑ i = 1 r ∑ j = 1 n i ( y i j − y ‾ ) 2 TSS = \sum_{i=1}^{r} \sum_{j=1}^{n_i}(y_{ij} - \overline{y})^2 TSS=i=1rj=1ni(yijy)2
  • 自变量平方和:表示自变量在因变量的变化中所占的份额
    C S S = ∑ i = 1 r n i ( y i ‾ − y ‾ ) 2 CSS = \sum_{i=1}^{r} n_i (\overline{y_i} - \overline{y})^2 CSS=i=1rni(yiy)2
  • 残差平方和:表示由其它原因引起的因变量变化
    R S S = ∑ i = 1 r ∑ j = 1 n i ( y i j − y i ‾ ) 2 RSS = \sum_{i=1}^{r} \sum_{j=1}^{n_i}(y_{ij} - \overline{y_i})^2 RSS=i=1rj=1ni(yijyi)2
    T S S = C S S + R S S TSS = CSS + RSS TSS=CSS+RSS
2.5 单因素方差分析的检验
  • 如果零假设 H 0 : β 1 = β 2 = . . . = β r H_0: \beta_1 = \beta_2 = ... = \beta_r H0:β1=β2=...=βr 成立,则
    C S S σ 2 ⇔ χ 2 ( r − 1 ) \frac{CSS}{\sigma^2} \Leftrightarrow \chi^2(r-1) σ2CSSχ2(r1)
  • 检验统计量
    F 比 = n − r r − 1 C S S R S S ⇔ F ( r − 1 , n − r ) F比 = \frac{n-r}{r-1} \frac{CSS}{RSS} \Leftrightarrow F(r-1, n-r) F=r1nrRSSCSSF(r1,nr)
  • 拒绝域
    F ≥ F α ( r − 1 , n − r ) F \ge F_\alpha(r-1, n-r) FFα(r1,nr)
2.6 单因素方差分析表

单因素方差分析表

C M S = C S S r − 1 , R M S = R S S n − r , F − 比 = C M S R M S CMS = \frac{CSS}{r-1}, RMS = \frac{RSS}{n-r}, F-比 = \frac{CMS}{RMS} CMS=r1CSS,RMS=nrRSS,F=RMSCMS

2.7 变量关系的强度

R 2 = 自 变 量 平 方 和 总 平 方 和 = C S S T S S R^2 = \frac{自变量平方和}{总平方和} = \frac{CSS}{TSS} R2==TSSCSS

三、双因素方差分析

3.1 数据的结构

双因素方差分析数据结构
y i j k = μ + α i + β j + γ i j + ε i j k , 1 ≤ i ≤ r , 1 ≤ j ≤ s , 1 ≤ k ≤ l , ε i j k ⇔ N ( 0 , σ 2 ) y_{ijk} = \mu + \alpha_i + \beta_j + \gamma_{ij} + \varepsilon_{ijk}, 1 \le i \le r, 1 \le j \le s, 1 \le k \le l, \varepsilon_{ijk} \Leftrightarrow N(0, \sigma^2) yijk=μ+αi+βj+γij+εijk,1ir,1js,1kl,εijkN(0,σ2)
主要任务:

  • 因子的主效应是否显著,即检验: H 01 : α 1 = α 2 = . . . = α r H_{01}: \alpha_1 = \alpha_2 = ... = \alpha_r H01:α1=α2=...=αr,以及 H 02 : β 1 = β 2 = . . . = β s H_{02}: \beta_1 = \beta_2 = ... = \beta_s H02:β1=β2=...=βs
  • 交互效应是否显著: H 03 : γ 11 = γ 12 = . . . = γ r s H_{03}: \gamma_{11} = \gamma_{12} = ... = \gamma_{rs} H03:γ11=γ12=...=γrs
  • 如果拒绝了 H 03 H_{03} H03 ,还应该寻找最佳搭配。
3.2 相关定义
  • 总平均
    y ‾ = 1 r s l ∑ i = 1 r ∑ j = 1 s ∑ k = 1 l y i j k \overline{y} = \frac{1}{rsl} \sum_{i=1}^r \sum_{j=1}^s \sum_{k=1}^l y_{ijk} y=rsl1i=1rj=1sk=1lyijk
  • 误差平均
    y i j ⋅ ‾ = 1 l ∑ k = 1 l y i j k \overline{y_{ij·}} = \frac{1}{l} \sum_{k=1}^l y_{ijk} yij=l1k=1lyijk
  • A A A 因素平均
    y i ⋅ ⋅ ‾ = 1 s ∑ j = 1 s y i j ⋅ ‾ \overline{y_{i··}} = \frac{1}{s} \sum_{j=1}^s \overline{y_{ij·}} yi=s1j=1syij
  • B B B 因素平均
    y ⋅ j ⋅ ‾ = 1 r ∑ i = 1 r y i j ⋅ ‾ \overline{y_{·j·}} = \frac{1}{r} \sum_{i=1}^r \overline{y_{ij·}} yj=r1i=1ryij
3.3 方差分析平方和分解公式
  • 总平方和
    T S S = ∑ i = 1 r ∑ j = 1 s ∑ k = 1 l ( y i j k − y ‾ ) 2 TSS = \sum_{i=1}^r \sum_{j=1}^s \sum_{k=1}^l (y_{ijk} - \overline{y})^2 TSS=i=1rj=1sk=1l(yijky)2
  • A A A 因子主效应平方和
    S S A = s l ∑ i = 1 r ( y ‾ i ⋅ ⋅ − y ‾ ) 2 SSA = sl \sum_{i=1}^r (\overline{y}_{i··} - \overline{y})^2 SSA=sli=1r(yiy)2
  • B B B 因子主效应平方和
    S S B = r l ∑ j = 1 s ( y ‾ ⋅ j ⋅ − y ‾ ) 2 SSB = rl \sum_{j=1}^s (\overline{y}_{·j·} - \overline{y})^2 SSB=rlj=1s(yjy)2
  • 交互效应平方和
    S S A B = l ∑ i = 1 r ∑ j = 1 s ( y ‾ i j ⋅ − y ‾ i ⋅ ⋅ − y ‾ ⋅ j ⋅ + y ‾ ) 2 SSAB = l \sum_{i=1}^r \sum_{j=1}^s (\overline{y}_{ij·} - \overline{y}_{i··} - \overline{y}_{·j·} + \overline{y})^2 SSAB=li=1rj=1s(yijyiyj+y)2
  • 随机误差平方和
    R S S = ∑ i = 1 r ∑ j = 1 s ∑ k = 1 l ( y i j k − y ‾ i j ⋅ ) 2 RSS = \sum_{i=1}^r \sum_{j=1}^s \sum_{k=1}^l (y_{ijk} - \overline{y}_{ij·})^2 RSS=i=1rj=1sk=1l(yijkyij)2
    T S S = S S A + S S B + S S A B + R S S TSS = SSA + SSB +SSAB + RSS TSS=SSA+SSB+SSAB+RSS
3.4 单因素方差分析的检验
  • R S S σ 2 \frac{RSS}{\sigma^2} σ2RSS~ χ 2 ( r s ( l − 1 ) ) \chi^2(rs(l-1)) χ2(rs(l1))
  • H 01 H_{01} H01 成立时, S S A σ 2 \frac{SSA}{\sigma^2} σ2SSA~ χ 2 ( r − 1 ) \chi^2(r-1) χ2(r1)
  • H 02 H_{02} H02 成立时, S S B σ 2 \frac{SSB}{\sigma^2} σ2SSB~ χ 2 ( s − 1 ) \chi^2(s-1) χ2(s1)
  • H 03 H_{03} H03 成立时, S S A B σ 2 \frac{SSAB}{\sigma^2} σ2SSAB~ χ 2 ( ( r − 1 ) ( s − 1 ) ) \chi^2((r-1)(s-1)) χ2((r1)(s1))
  • 对于零假设 H 01 : α 1 = α 2 = . . . = α r H_{01}: \alpha_1 = \alpha_2 = ... = \alpha_r H01:α1=α2=...=αr,相应的统计量及拒绝域为
    F A = r s ( l − 1 ) r − 1 S S A R S S ⇔ F ( r − 1 , r s ( l − 1 ) ) F_A = \frac {rs(l-1)} {r-1} \frac{SSA}{RSS} \Leftrightarrow F(r-1, rs(l-1)) FA=r1rs(l1)RSSSSAF(r1,rs(l1))
    { F A ≥ F α ( r − 1 , r s ( l − 1 ) ) } \{ F_A \ge F_\alpha(r-1, rs(l-1)) \} {FAFα(r1,rs(l1))}
  • 对于零假设 H 02 : β 1 = β 2 = . . . = β s H_{02}: \beta_1 = \beta_2 = ... = \beta_s H02:β1=β2=...=βs,相应的统计量及拒绝域为
    F B = r s ( l − 1 ) s − 1 S S B R S S ⇔ F ( s − 1 , r s ( l − 1 ) ) F_B = \frac {rs(l-1)} {s-1} \frac{SSB}{RSS} \Leftrightarrow F(s-1, rs(l-1)) FB=s1rs(l1)RSSSSBF(s1,rs(l1))
    { F B ≥ F α ( s − 1 , r s ( l − 1 ) ) } \{ F_B \ge F_\alpha(s-1, rs(l-1)) \} {FBFα(s1,rs(l1))}
  • 对于零假设 H 03 : γ 11 = γ 12 = . . . = γ r s H_{03}: \gamma_{11} = \gamma_{12} = ... = \gamma_{rs} H03:γ11=γ12=...=γrs,相应的统计量及拒绝域为
    F A B = r s ( l − 1 ) ( r − 1 ) ( s − 1 ) S S A B R S S ⇔ F ( ( r − 1 ) ( s − 1 ) , r s ( l − 1 ) ) F_{AB} = \frac {rs(l-1)} {(r-1)(s-1)} \frac{SSAB}{RSS} \Leftrightarrow F((r-1)(s-1), rs(l-1)) FAB=(r1)(s1)rs(l1)RSSSSABF((r1)(s1),rs(l1))
    { F A B ≥ F α ( ( r − 1 ) ( s − 1 ) , r s ( l − 1 ) ) } \{ F_{AB} \ge F_\alpha((r-1)(s-1), rs(l-1)) \} {FABFα((r1)(s1),rs(l1))}
3.5 双因素方差分析表

双因素方差分析表

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值