F分布

F分布

设随机变量 X 1 ∼ χ 2 ( m ) ,   X 2 ∼ χ 2 ( n ) X_1\sim\chi^2(m),~X_2\sim\chi^2(n) X1χ2(m), X2χ2(n), X 1 X_1 X1 X 2 X_2 X2独立,则称 F = X 1 / m X 2 / n F=\frac{X_1/m}{X_2/n} F=X2/nX1/m的分布是自由度为m和n的 F F F分布, F ∼ F ( m , n ) F\sim F(m,n) FF(m,n). F F F分布的密度函数可根据独立随机变量商的分布的密度函数的公式与巧妙的变量代换求出。

1 两个正态总体方差比的 F F F检验

X ∼ N ( μ 1 , σ x 2 ) ,   Y ∼ N ( μ 2 , σ y 2 ) X\sim N(\mu_1,\sigma_x^2),~Y\sim N(\mu_2,\sigma_y^2) XN(μ1,σx2), YN(μ2,σy2), 从总体 X X X中抽取 x 1 , x 2 , . . . , x n 1 x_1,x_2,...,x_{n_1} x1,x2,...,xn1, 样本方差记为 s x 2 s_x^2 sx2, 从总体 Y Y Y中抽取 y 1 , y 2 , . . . , y n 2 y_1,y_2,...,y_{n_2} y1,y2,...,yn2, 样本方差记为 s y 2 s_y^2 sy2. 则有:
( n 1 − 1 ) s x 2 σ x 2 ∼ χ 2 ( n 1 − 1 )        ( n 2 − 1 ) s y 2 σ y 2 ∼ χ 2 ( n 2 − 1 ) \frac{(n_1-1)s_x^2}{\sigma_x^2}\sim\chi^2(n_1-1)~~~~~~\frac{(n_2-1)s_y^2}{\sigma_y^2}\sim\chi^2(n_2-1) σx2(n11)sx2χ2(n11)      σy2(n21)sy2χ2(n21)
从而有:
F = s x 2 / σ x 2 s y 2 / σ y 2 ∼ F ( n 1 − 1 , n 2 − 1 ) . F= \frac{s_x^2/\sigma_x^2}{s_y^2/\sigma_y^2}\sim F(n_1-1,n_2-1). F=sy2/σy2sx2/σx2F(n11,n21).

这个统计量可以用来检验两个正态总体的方差是否相等:
H 0 : σ x 2 = σ y 2      H 1 : σ x 2 ≠ σ y 2 H_0:\sigma_x^2=\sigma_y^2~~~~H_1:\sigma_x^2\neq\sigma^2_y H0:σx2=σy2    H1:σx2̸=σy2
在原假设成立的情况下,统计量变为:
F 0 = s x 2 s y 2 ∼ F ( n 1 − 1 , n 2 − 1 ) . F_0=\frac{s_x^2}{s_y^2}\sim F(n_1-1,n_2-1). F0=sy2sx2F(n11,n21).
在把显著性水平设为 α \alpha α时,拒绝域为: W = { F 0 ≤ F α 2 ( n 1 − 1 , n 2 − 1 )   o r   F 0 ≥ F 1 − α 2 ( n 1 − 1 , n 2 − 1 ) } W=\{F_0\leq F_{\frac{\alpha}{2}}(n_1-1,n_2-1)~ or~ F_0\geq F_{1-\frac{\alpha}{2}}(n_1-1,n_2-1)\} W={F0F2α(n11,n21) or F0F12α(n11,n21)}

2 组间比较的方差分析

在进行两组间的均值比较时,通常使用t检验,当进行多组间的均值比较时,通常使用F检验。方差分析有:

  • 多个独立样本均数的比较(单因子多水平)
  • 多个相关样本均数的比较(单因子多水平)
  • 多个样本均数的多重比较(单因子多水平)
  • 多因素资料的方差分析
  • 协方差分析

下面以多个独立样本均数的比较作为例子,说明 F F F统计量的构造过程。

因子 M M M的水平样本值样本均值样本方差总体均值
M 1 M_1 M1 x 11       x 12       . . . . . .       x 1 n 1 x_{11}~~~~~x_{12}~~~~~......~~~~~x_{1n_1} x11     x12     ......     x1n1 x ‾ 1 \overline{x}_1 x1 s 1 2 s_1^2 s12 μ 1 \mu_1 μ1
M 2 M_2 M2 x 21       x 22       . . . . . .       x 2 n 2 x_{21}~~~~~x_{22}~~~~~......~~~~~x_{2n_2} x21     x22     ......     x2n2 x ‾ 2 \overline{x}_2 x2 s 2 2 s_2^2 s22 μ 2 \mu_2 μ2
⋮ \vdots ⋮            ⋮         . . . . . .          ⋮   \vdots~~~~~~~~~~\vdots~~~~~~~......~~~~~~~~\vdots~                  ......          ⋮ \vdots ⋮ \vdots ⋮ \vdots
M r M_r Mr x r 1       x r 2       . . . . . .       x r n r x_{r1}~~~~~x_{r2}~~~~~......~~~~~x_{rn_r} xr1     xr2     ......     xrnr x ‾ r \overline{x}_r xr s r 2 s_r^2 sr2 μ r \mu_r μr
N = ∑ i = 1 r n i N=\sum\limits_{i=1}^{r} n_i N=i=1rni x ‾ = ∑ i = 1 r 1 n i x ‾ i \overline{x}=\sum\limits_{i=1}^{r}\frac{1}{n_i}\overline{x}_i x=i=1rni1xi μ = ∑ i = 1 r 1 n i μ i \mu=\sum\limits_{i=1}^{r}\frac{1}{n_i}\mu_i μ=i=1rni1μi

因子 M M M有 r 个水平,现在需要检验这 r 个水平的均值是否相等,可以将这 r 个水平上抽取的样本看作是从 r 个总体上抽取的样本, 即 X i ∼ N ( μ i , σ 2 ) X_i\sim N(\mu_i,\sigma^2) XiN(μi,σ2),原假设为:
H 0 : μ 1 = μ 2 = . . . = μ r H_0:\mu_1=\mu_2=...=\mu_r H0:μ1=μ2=...=μr
来自总体 X i X_i Xi的第 j j j次实验结果记为 x i j x_{ij} xij,则有:
x i j = μ i + ϵ i j x_{ij}=\mu_i+\epsilon_{ij} xij=μi+ϵij
这里的 x i j x_{ij} xij 被看作是一个随机变量,假设各 ϵ i j \epsilon_{ij} ϵij 之间互相独立,且都服从 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2).

M i M_i Mi水平效应为:
m i = μ i − μ m_i=\mu_i-\mu mi=μiμ
则可以建立模型:
f ( x ) = { x i j = μ + m i + ϵ i j ,                                  ∑ i = 1 r m i = 0 ,                                               各 ϵ i j 之 间 互 相 独 立 , 且 都 服 从 N ( 0 , σ 2 ) . f(x)=\left\{ \begin{aligned} x_{ij}=\mu+m_i+\epsilon_{ij},~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \sum\limits_{i=1}^{r}m_i=0,~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ 各 \epsilon_{ij}之间互相独立,且都服从N(0,\sigma^2). \end{aligned} \right. f(x)=xij=μ+mi+ϵij,                                i=1rmi=0,                                             ϵijN(0,σ2).
原假设可以改写为:
H 0 : m 1 = m 2 = . . . = m r = 0 H_0:m_1=m_2=...=m_r=0 H0:m1=m2=...=mr=0
则在原假设成立的条件下,统计量 F 0 F_0 F0可以如下构造:
S S 组 间 = ∑ i = 1 r n i ( x ‾ i − x ‾ ) 2              d f 组 间 = r − 1 SS_{组间}=\sum\limits_{i=1}^{r}n_i(\overline{x}_i-\overline x)^2~~~~~~~~~~~~df_{组间}=r-1 SS=i=1rni(xix)2            df=r1
S S 组 内 = ∑ i = 1 r ∑ j = 1 n i ( x i j − x ‾ i )           d f 组 内 = N − r SS_{组内}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{n_i}(x_{ij}-\overline x_i)~~~~~~~~~df_{组内}=N-r SS=i=1rj=1ni(xijxi)         df=Nr
S S 总 = ∑ i = 1 r ∑ j = 1 n i ( x i j − x ‾ ) 2           d f 总 = N − 1 SS_{总}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{n_i}(x_{ij}-\overline x)^2~~~~~~~~~df_总=N-1 SS=i=1rj=1ni(xijx)2         df=N1
统计量 F 0 F_0 F0为:
F 0 = S S 组 间 / d f 组 间 S S 组 内 / d f 组 内 ∼ F ( r − 1 , N − r ) F_0=\frac{SS_{组间}/df_{组间}}{SS_{组内}/df_{组内}}\sim F(r-1,N-r) F0=SS/dfSS/dfF(r1,Nr)
证明:
由于 x i j = μ + m i + ϵ i j x_{ij}=\mu+m_i+\epsilon_{ij} xij=μ+mi+ϵij, 在原假设成立时,有 x i j ∼ N ( μ , σ 2 ) x_{ij}\sim N(\mu,\sigma^2) xijN(μ,σ2),即 x i j − μ σ ∼ N ( 0 , 1 ) \frac{x_{ij}-\mu}{\sigma}\sim N(0,1) σxijμN(0,1).

下面将组内偏差和组间偏差全部用随机误差项与水平效应表示:

      x ‾ i   = 1 n i ∑ j = 1 n i x i j = 1 n i ∑ j = 1 n i ( μ i + ϵ i j ) = μ i + ϵ ‾ i ~~~~~\overline{x}_i~=\frac{1}{n_i}\sum\limits_{j=1}^{n_i}x_{ij}=\frac{1}{n_i}\sum\limits_{j=1}^{n_i}(\mu_i+\epsilon_{ij})=\mu_i+\overline{\epsilon}_i      xi =ni1j=1nixij=ni1j=1ni(μi+ϵij)=μi+ϵi

x i j − x ‾ i = μ i + ϵ i j − ( μ i + ϵ ‾ i ) = ϵ i j − ϵ ‾ i                     x_{ij}-\overline{x}_i=\mu_i+\epsilon_{ij}-(\mu_i+\overline{\epsilon}_i)=\epsilon_{ij}-\overline{\epsilon}_i~~~~~~~~~~~~~~~~~~~ xijxi=μi+ϵij(μi+ϵi)=ϵijϵi                   

           x ‾ i − x ‾    = μ i + ϵ ‾ i − ∑ i = 1 r 1 n i x ‾ i = μ i + ϵ ‾ i − ∑ i = 1 r 1 n i ( μ i + ϵ ‾ i ) ~~~~~~~~~~\overline x_{i}-\overline{x} ~~=\mu_i+\overline{\epsilon}_i-\sum\limits_{i=1}^{r}\frac{1}{n_i}\overline{x}_i =\mu_i+\overline{\epsilon}_i - \sum\limits_{i=1}^{r}\frac{1}{n_i}(\mu_i+\overline{\epsilon}_i)           xix  =μi+ϵii=1rni1xi=μi+ϵii=1rni1(μi+ϵi)

= μ i + ϵ ‾ i − ( μ + ϵ ‾ ) = m i + ϵ ‾ i − ϵ ‾    =\mu_i+\overline{\epsilon}_i - ({\mu}+\overline{\epsilon}) =m_i+\overline{\epsilon}_i - \overline{\epsilon}~~ =μi+ϵi(μ+ϵ)=mi+ϵiϵ  

然后可以写出用随机误差项与水平效应表示的组间平方和与组内平方和:

S S 组 间 = ∑ i = 1 r n i ( x ‾ i − x ‾ ) 2 = ∑ i = 1 r n i ( m i + ϵ ‾ i − ϵ ‾ ) 2 SS_{组间}=\sum\limits_{i=1}^{r}n_i(\overline{x}_i-\overline x)^2=\sum\limits_{i=1}^{r}n_i(m_i+\overline{\epsilon}_i - \overline{\epsilon})^2 SS=i=1rni(xix)2=i=1rni(mi+ϵiϵ)2
S S 组 内 = ∑ i = 1 r ∑ j = 1 n i ( x i j − x ‾ i ) 2 = ∑ i = 1 r ∑ j = 1 n i ( ϵ i j − ϵ ‾ i ) 2 SS_{组内}=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{n_i}(x_{ij}-\overline x_i)^2 =\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{n_i}(\epsilon_{ij}-\overline{\epsilon}_i)^2 SS=i=1rj=1ni(xijxi)2=i=1rj=1ni(ϵijϵi)2

前面介绍t分布的时候证明过:

x ‾ \overline{x} x s 2 s^2 s2独立 ( x ‾ \overline{x} x只与 y 1 y_1 y1有关, s 2 s^2 s2只与 y 2 , . . . , y n y_2,...,y_n y2,...,yn有关)

所以 ϵ ‾ i \overline\epsilon_i ϵi ∑ j = 1 n i ( ϵ i j − ϵ ‾ i ) 2 \sum\limits_{j=1}^{n_i}(\epsilon_{ij}-\overline \epsilon_i)^2 j=1ni(ϵijϵi)2独立, 又由于 ϵ i j \epsilon_{ij} ϵij互相之间的独立性,有:
ϵ ‾ 1 , ϵ ‾ 2 , . . . , ϵ ‾ r   ⊥   ∑ i = 1 r ∑ j = 1 n i ( ϵ i j − ϵ ‾ i ) 2 \overline\epsilon_1,\overline\epsilon_2,...,\overline\epsilon_r~\perp~\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{n_i}(\epsilon_{ij}-\overline{\epsilon}_i)^2 ϵ1,ϵ2,...,ϵr  i=1rj=1ni(ϵijϵi)2

       ϵ ‾ 1 , ϵ ‾ 2 , . . . , ϵ ‾ r   →   ∑ i = 1 r n i ( m i + ϵ ‾ i − ϵ ‾ ) 2 ~~~~~~\overline\epsilon_1,\overline\epsilon_2,...,\overline\epsilon_r~\rightarrow~\sum\limits_{i=1}^{r}n_i(m_i+\overline{\epsilon}_i - \overline{\epsilon})^2       ϵ1,ϵ2,...,ϵr  i=1rni(mi+ϵiϵ)2

所以 S S 组 间 与 S S 组 内 SS_{组间}与SS_{组内} SSSS独立。

接下来看组间平方和的分布:

H 0 H_0 H0成立的条件下, S S 组 间 = ∑ i = 1 r n i ( m i + ϵ ‾ i − ϵ ‾ ) 2 = ∑ i = 1 r n i ( ϵ ‾ i − ϵ ‾ ) 2 SS_{组间}=\sum\limits_{i=1}^{r}n_i(m_i+\overline{\epsilon}_i - \overline{\epsilon})^2 =\sum\limits_{i=1}^{r}n_i(\overline{\epsilon}_i - \overline{\epsilon})^2 SS=i=1rni(mi+ϵiϵ)2=i=1rni(ϵiϵ)2,再用上定理#,

定理#:对于 ϵ i j ∼ N ( 0 , σ 2 ) \epsilon_{ij}\sim N(0,\sigma^2) ϵijN(0,σ2) ,   ~   1 n i ∑ j = 1 n i ϵ i j = ϵ ‾ i ∼ N ( 0 , σ 2 n i ) {\frac{1}{n_i}}\sum\limits_{j=1}^{n_i}\epsilon_{ij}=\overline \epsilon_i\sim N(0,\frac{\sigma^2}{n_i}) ni1j=1niϵij=ϵiN(0,niσ2)

就可以得到:
S S 组 间 σ 2 = ∑ i = 1 r n i ( ϵ ‾ i − ϵ ‾ σ ) 2 = ∑ i = 1 r ( ϵ ‾ i − ϵ ‾ σ / n i ) 2 = ( r − 1 ) s ϵ ‾ i 2 σ 2 / n i ∼ χ 2 ( r − 1 ) \frac{SS_{组间}}{\sigma^2} =\sum\limits_{i=1}^{r}n_i(\frac{\overline{\epsilon}_i - \overline{\epsilon}}{\sigma})^2 =\sum\limits_{i=1}^{r}(\frac{\overline{\epsilon}_i - \overline{\epsilon}}{\sigma/\sqrt n_i})^2=\frac{(r-1)s_{\overline\epsilon_i}^2}{\sigma^2/n_i}\sim\chi^2(r-1) σ2SS=i=1rni(σϵiϵ)2=i=1r(σ/n iϵiϵ)2=σ2/ni(r1)sϵi2χ2(r1)

接下来看组内平方和的分布:

根据 ( n − 1 ) s 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1) σ2(n1)s2χ2(n1) 可得: ∑ j = 1 n i ( ϵ i j − ϵ ‾ i σ ) 2 = ( n i − 1 ) s ϵ i j 2 σ 2 ∼ χ 2 ( n i − 1 ) \sum\limits_{j=1}^{n_i}(\frac{\epsilon_{ij}-\overline{\epsilon}_i}{\sigma})^2=\frac{(n_i-1)s^2_{\epsilon_{ij}}}{\sigma^2}\sim \chi^2(n_i-1) j=1ni(σϵijϵi)2=σ2(ni1)sϵij2χ2(ni1)
再由 χ 2 \chi^2 χ2分布的可加性得:
S S 组 内 σ 2 = ∑ i = 1 r ∑ j = 1 n i ( ϵ i j − ϵ ‾ i σ ) 2 ∼ χ 2 ( N − r ) \frac{SS_{组内}}{\sigma^2} =\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{n_i}(\frac{\epsilon_{ij}-\overline{\epsilon}_i}{\sigma})^2\sim \chi^2(N-r) σ2SS=i=1rj=1ni(σϵijϵi)2χ2(Nr)
所以:
F 0 = S S 组 间 / d f 组 间 S S 组 内 / d f 组 内 = S S 组 间 σ 2 / r − 1 S S 组 内 σ 2 / N − r ∼ F ( r − 1 , N − r ) F_0=\frac{SS_{组间}/df_{组间}}{SS_{组内}/df_{组内}} =\frac{\frac{SS_{组间}}{\sigma^2}/r-1}{\frac {SS_{组内}}{\sigma^2}/N-r}\sim F(r-1,N-r) F0=SS/dfSS/df=σ2SS/Nrσ2SS/r1F(r1,Nr)
证明完毕。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值