【多元统计分析】05.多元统计的“三大分布”

五、多元统计的“三大分布”

一元正态总体参数 μ , σ 2 \mu,\sigma^2 μ,σ2的参数检验,涉及到单总体、多总体,有三种比较常见的分布: χ 2 \chi^2 χ2分布, t t t分布, F F F分布;推广到多元正态总体上,也有三种对应的分布。在介绍多元统计的三大分布之前,先介绍正态变量二次型的分布以及非中心三大分布。

1.正态变量的二次型

正态变量二次型的分布,是对独立的同方差正态变量 X i ∼ N 1 ( μ i , σ 2 ) , σ 2 ≠ 0 X_i\sim N_1(\mu_i,\sigma^2),\sigma^2\ne 0 XiN1(μi,σ2),σ2=0而言的。如果记 X = ( X 1 , ⋯   , X n ) ′ X=(X_1,\cdots,X_n)' X=(X1,,Xn),则 X ∼ N p ( μ , σ 2 I n ) X\sim N_p(\mu,\sigma^2I_n) XNp(μ,σ2In),这里 μ = ( μ 1 , ⋯   , μ n ) ′ \mu=(\mu_1,\cdots,\mu_n)' μ=(μ1,,μn)。对于一个矩阵 A n × n A_{n\times n} An×n X ′ A X X'AX XAX就称为二次型,很多时候 A A A还会是对称阵

从简单的开始讨论,首先讨论 A = I n A=I_n A=In,此时 ξ = X ′ I n X = X ′ X \xi=X'I_nX=X'X ξ=XInX=XX。更进一步简化 μ = 0 \mu=0 μ=0,就得到
ξ σ 2 = ∑ α = 1 n X α 2 σ 2 ∼ χ 2 ( n ) . \frac{\xi}{\sigma^2}=\sum_{\alpha=1}^n \frac{X_{\alpha}^2}{\sigma^2}\sim \chi^2(n). σ2ξ=α=1nσ2Xα2χ2(n).
这就是我们对 χ 2 \chi^2 χ2分布的定义,为了方便记忆,我们也可以写成 X ′ X ∼ σ 2 χ 2 ( n ) X'X\sim \sigma^2\chi^2(n) XXσ2χ2(n)

而如果 μ ≠ 0 \mu\ne0 μ=0,我们可以类似定义非中心 χ 2 \chi^2 χ2分布,只需要加入非中心参数 δ = μ ′ μ = ∑ α = 1 n μ α 2 \delta=\mu'\mu=\sum_{\alpha=1}^n \mu_\alpha^2 δ=μμ=α=1nμα2,此时对 σ 2 = 1 \sigma^2=1 σ2=1时,就应该有 X ′ X ∼ χ 2 ( n , δ ) X'X\sim \chi^2(n,\delta) XXχ2(n,δ);当 σ 2 ≠ 1 \sigma^2\ne 1 σ2=1时,令 Y i = X i / σ Y_i=X_i/\sigma Yi=Xi/σ,则 Y i ∼ N 1 ( μ / σ , 1 ) Y_i\sim N_1(\mu/\sigma,1) YiN1(μ/σ,1),且 Y ′ Y ∼ χ 2 ( n , δ / σ 2 ) Y'Y\sim \chi^2(n,\delta/\sigma^2) YYχ2(n,δ/σ2),所以
X ′ X ∼ σ 2 χ 2 ( n , δ σ 2 ) . X'X\sim \sigma^2\chi^2(n,\frac{\delta}{\sigma^2}). XXσ2χ2(n,σ2δ).
既然提出了非中心 χ 2 \chi^2 χ2分布,就顺道提一下非中心 t t t分布与非中心 F F F分布。非中心 t t t分布是指对相互独立的 X ∼ N ( δ , 1 ) , Y ∼ χ 2 ( n ) X\sim N(\delta,1),Y\sim \chi^2(n) XN(δ,1),Yχ2(n) T = X Y / n T=\frac{X}{\sqrt{Y/n}} T=Y/n X的分布,记作 T ∼ t ( n , δ ) T\sim t(n,\delta) Tt(n,δ);非中心 F F F分布是指对相互独立的 X ∼ χ 2 ( m , δ ) , Y ∼ χ 2 ( n ) X\sim \chi^2(m,\delta),Y\sim \chi^2(n) Xχ2(m,δ),Yχ2(n) F = X / m Y / n F=\frac{X/m}{Y/n} F=Y/nX/m的分布,记作 F ∼ F ( m , n , δ ) F\sim F(m,n,\delta) FF(m,n,δ)

接下来,将情况变得复杂一点, A A A不是单位阵,而扩展到幂等对称阵,即 A 2 = A A^2=A A2=A。幂等矩阵有一个特征,是它的特征值只能是0或1,因为 A ( A − I ) = 0 ⇔ λ ( λ − 1 ) = 0 A(A-I)=0\Leftrightarrow \lambda(\lambda-1)=0 A(AI)=0λ(λ1)=0。基于此,我们得到以下结论:

X ∼ N n ( 0 , σ 2 I n ) X\sim N_n(0,\sigma^2I_n) XNn(0,σ2In) A A A为对称阵且 r a n k ( A ) = r {\rm rank}(A)=r rank(A)=r,则
X ′ A X ∼ σ 2 χ 2 ( r ) ⇔ A 2 = A . X'AX\sim \sigma^2\chi^2(r)\Leftrightarrow A^2=A. XAXσ2χ2(r)A2=A.
X ∼ N n ( μ , σ 2 I n ) X\sim N_n(\mu,\sigma^2I_n) XNn(μ,σ2In) A A A为对称阵,则令 δ = μ ′ A μ / σ 2 \delta=\mu'A\mu/\sigma^2 δ=μAμ/σ2,有
X ′ A X ∼ σ 2 χ 2 ( r , δ ) ⇔ A 2 = A 且 r a n k ( A ) = r . X'AX\sim \sigma^2\chi^2(r,\delta)\Leftrightarrow A^2=A且{\rm rank}(A)=r. XAXσ2χ2(r,δ)A2=Arank(A)=r.

证明第一个结论,先证充分性 ⇒ \Rightarrow 。因为 A A A对称,所以存在正交阵 Γ \Gamma Γ使得
Γ A Γ ′ = d i a g ( λ 1 , λ 2 , ⋯   , λ r , 0 , ⋯   , 0 ) = d Λ . \Gamma A\Gamma'={\rm diag}(\lambda_1,\lambda_2,\cdots,\lambda_r,0,\cdots,0)\stackrel {\rm d}=\Lambda. ΓAΓ=diag(λ1,λ2,,λr,0,,0)=dΛ.
Y = Γ ′ X ∼ N ( 0 , σ 2 I n ) Y=\Gamma'X\sim N(0,\sigma^2I_n) Y=ΓXN(0,σ2In),则 X = Γ Y X=\Gamma Y X=ΓY,有
ξ = X ′ A X σ 2 = Y ′ Λ Y σ 2 = ∑ α = 1 r λ α Y α 2 / σ 2 . \xi=\frac{X'AX}{\sigma^2}=\frac{Y'\Lambda Y}{\sigma^2}=\sum_{\alpha=1}^r \lambda_\alpha Y_{\alpha}^2/\sigma^2. ξ=σ2XAX=σ2YΛY=α=1rλαYα2/σ2.
这里 Y α 2 / σ 2 Y_\alpha^2/\sigma^2 Yα2/σ2服从 χ 2 ( 1 ) \chi^2(1) χ2(1)分布。又因为 χ 2 ( k ) \chi^2(k) χ2(k)分布的特征函数是 ( 1 − 2 i t ) − k / 2 (1-2{\rm i}t)^{-k/2} (12it)k/2且各 Y α Y_{\alpha} Yα独立,所以 ξ \xi ξ的特征函数是
φ ξ ( t ) = [ ( 1 − 2 i λ 1 t ) ⋯ ( 1 − 2 i λ r t ) ] 1 / 2 = ( 1 − 2 i t ) r / 2 . \varphi_\xi(t)=[(1-2{\rm i}\lambda_1t)\cdots(1-2{\rm i}\lambda_rt)]^{1/2}=(1-2{\rm i}t)^{r/2}. φξ(t)=[(12iλ1t)(12iλrt)]1/2=(12it)r/2.
由此可以推出 λ 1 = ⋯ = λ r = 1 \lambda_1=\cdots=\lambda_r=1 λ1==λr=1,从而 A 2 = Γ ′ Λ Γ Γ ′ Λ Γ = Γ ′ Λ 2 Γ = A A^2=\Gamma'\Lambda\Gamma\Gamma'\Lambda\Gamma=\Gamma'\Lambda^2\Gamma=A A2=ΓΛΓΓΛΓ=ΓΛ2Γ=A

再证必要性 ⇐ \Leftarrow ,由题意存在一个 Γ \Gamma Γ,使得
Γ ′ A Γ = [ I r O O O ] . \Gamma' A\Gamma=\begin{bmatrix} I_r & O\\ O & O \end{bmatrix}. ΓAΓ=[IrOOO].
Y = Γ ′ X , X = Γ Y Y=\Gamma'X,X=\Gamma Y Y=ΓX,X=ΓY,则 Y ∼ N ( 0 , σ 2 I n ) Y\sim N(0,\sigma^2I_n) YN(0,σ2In),且
ξ = X ′ A X σ 2 = Y ′ Γ A Γ Y σ 2 = 1 σ 2 Y ′ [ I r O O O ] Y = 1 σ 2 ∑ α = 1 r Y α 2 . \xi=\frac{X'AX}{\sigma^2}=\frac{Y'\Gamma A\Gamma Y}{\sigma^2}=\frac1{\sigma^2}Y'\begin{bmatrix}I_r & O \\ O & O \end{bmatrix}Y=\frac 1{\sigma^2}\sum_{\alpha=1}^r Y_\alpha^2. ξ=σ2XAX=σ2YΓAΓY=σ21Y[IrOOO]Y=σ21α=1rYα2.
所以 X ′ A X ∼ σ 2 χ 2 ( r ) X'AX\sim \sigma^2\chi^2(r) XAXσ2χ2(r)。对于非中心的情况,在不知道非中心 χ 2 \chi^2 χ2分布特征函数的情况下不太好证明,记住结论即可。

对于随机正态变量的二次型,还有以下关于独立性的结论:

X ∼ N n ( μ , σ 2 I n ) X\sim N_n(\mu,\sigma^2I_n) XNn(μ,σ2In) A A A n n n阶对称矩阵, B B B m × n m\times n m×n矩阵,令 ξ = X ′ A X , Z = B X \xi=X'AX,Z=BX ξ=XAX,Z=BX,则
B A = O ⇔ Z = B X 与 ξ = X ′ A X 相 互 独 立 . BA=O\Leftrightarrow Z=BX与\xi=X'AX相互独立. BA=OZ=BXξ=XAX.

也就是,当 B A = O BA=O BA=O时,多元正态分布 Z = B X Z=BX Z=BX与二次型随机向量 X ′ A X X'AX XAX相互独立。

最后,对于一般 p p p维正态随机向量 X ∼ N p ( μ , Σ ) , Σ > 0 X\sim N_p(\mu,\Sigma),\Sigma>0 XNp(μ,Σ),Σ>0,有以下结论:

  1. 结论一: X ′ Σ − 1 X ∼ χ 2 ( p , δ ) X'\Sigma^{-1}X\sim \chi^2(p,\delta) XΣ1Xχ2(p,δ),其中 δ = μ ′ Σ − 1 μ \delta=\mu'\Sigma^{-1}\mu δ=μΣ1μ。证明的关键是将 Σ \Sigma Σ分解成 C C ′ CC' CC

  2. 结论二:对于对称阵 A A A r a n k ( A ) = r {\rm rank}(A)=r rank(A)=r,则
    ( X − μ ) ′ A ( X − μ ) ∼ χ 2 ( r ) ⇔ Σ A Σ A Σ = Σ A Σ . (X-\mu)'A(X-\mu)\sim \chi^2(r)\Leftrightarrow \Sigma A\Sigma A\Sigma=\Sigma A\Sigma. (Xμ)A(Xμ)χ2(r)ΣAΣAΣ=ΣAΣ.
    证明的关键是将 Σ \Sigma Σ分解为 ( Σ 1 / 2 ) 2 (\Sigma^{1/2})^2 (Σ1/2)2,且用到 Y ′ C Y ∼ χ 2 ( p ) ⇔ C 2 = C Y'CY\sim \chi^2(p)\Leftrightarrow C^2=C YCYχ2(p)C2=C结论。

  3. 结论三:对于对称阵 A , B A,B A,B,有
    ( X − μ ) ′ A ( X − μ ) 与 ( X − μ ) ′ B ( X − μ ) 独 立 ⇔ Σ A Σ B Σ = O . (X-\mu)'A(X-\mu)与(X-\mu)'B(X-\mu)独立\Leftrightarrow \Sigma A\Sigma B\Sigma =O. (Xμ)A(Xμ)(Xμ)B(Xμ)ΣAΣBΣ=O.

2.威沙特(Wishart) W W W分布

在一元统计中, χ 2 \chi^2 χ2分布用来刻画正态样本的样本方差分布,推广到多元统计,对应的样本离差阵的分布,也应该由一种分布来刻画,这种分布就是Wishart分布。其定义如下:

Wishart分布:设 X ( α ) ∼ N p ( 0 , Σ ) ( α = 1 , ⋯   , n ) X_{(\alpha)}\sim N_p(0,\Sigma)(\alpha=1,\cdots,n) X(α)Np(0,Σ)(α=1,,n)相互独立,记 X = ( X ( 1 ) , ⋯   , X ( n ) ) ′ X=(X_{(1)},\cdots,X_{(n)})' X=(X(1),,X(n)) n × p n\times p n×p矩阵,则称随机阵 W = ∑ α = 1 n X ( α ) X ( α ) ′ = X ′ X W=\sum\limits_{\alpha=1}^n X_{(\alpha)}X_{(\alpha)}'=X'X W=α=1nX(α)X(α)=XX的分布为Wishart分布,记作 W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) WWp(n,Σ)

非中心Wishart分布:设 X ( α ) ∼ N p ( μ , Σ ) ( α = 1 , ⋯   , n ) X_{(\alpha)}\sim N_p(\mu,\Sigma)(\alpha=1,\cdots,n) X(α)Np(μ,Σ)(α=1,,n)相互独立,记
M = [ μ 1 ⋯ μ p ⋮ ⋮ μ 1 ⋯ μ p ] = 1 n μ ′ , Δ = M ′ M = m μ μ ′ , M=\begin{bmatrix} \mu_1 & \cdots & \mu_p \\ \vdots & & \vdots \\ \mu_1 & \cdots & \mu_p \end{bmatrix}=\boldsymbol 1_n\mu',\quad \Delta=M'M=m\mu \mu', M=μ1μ1μpμp=1nμ,Δ=MM=mμμ,
则称 W = X ′ X W=X'X W=XX服从非中心参数为 Δ \Delta Δ的非中心Wishart分布,记作 W ∼ W p ( n , Σ , Δ ) W\sim W_p(n,\Sigma,\Delta) WWp(n,Σ,Δ)

更一般地如果 X ( α ) ∼ N p ( μ p , Σ ) X_{(\alpha)}\sim N_p(\mu_p,\Sigma) X(α)Np(μp,Σ)相互独立,则
M = [ μ 11 ⋯ μ 1 p ⋮ ⋮ μ n 1 ⋯ μ n p ] , Δ = M ′ M = ∑ α = 1 n μ α μ α ′ . M=\begin{bmatrix} \mu_{11} & \cdots & \mu_{1p} \\ \vdots & & \vdots \\ \mu_{n1} & \cdots & \mu_{np} \end{bmatrix},\quad \Delta =M'M=\sum_{\alpha=1}^n \mu_{\alpha}\mu_\alpha'. M=μ11μn1μ1pμnp,Δ=MM=α=1nμαμα.
W = X ′ X W=X'X W=XX服从非中心参数为 Δ \Delta Δ的非中心Wishart分布,记作 W ∼ W p ( n , Σ , Δ ) W\sim W_p(n,\Sigma,\Delta) WWp(n,Σ,Δ)

可以看到,区分Wishart分布是中心化的还是非中心的,以及非中心参数的情况如何,关键在于正态总体 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)是不是零均值的,均值是否随样本变化。当然,离差阵作为自协方差矩阵的估计,抽取的样本肯定要是同方差的。

关于Wishart分布,类似数理统计中的三大分布一样,有一些结论是不需证明,但需要记忆的。

  • X ( α ) ∼ N p ( μ , Σ ) X_{(\alpha)}\sim N_p(\mu,\Sigma) X(α)Np(μ,Σ),则样本离差阵服从自由度为 n − 1 n-1 n1的Wishart分布,即
    A = ∑ α = 1 n ( X ( α ) − X ˉ ) ( X ( α ) − X ˉ ) ′ ∼ W p ( n − 1 , Σ ) . A=\sum_{\alpha=1}^{n}(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)'\sim W_p(n-1,\Sigma). A=α=1n(X(α)Xˉ)(X(α)Xˉ)Wp(n1,Σ).
    这是因为我们已经证明了 W = d ∑ t = 1 n − 1 Z t Z t ′ W\stackrel {\rm d}=\sum_{t=1}^{n-1}Z_tZ_t' W=dt=1n1ZtZt,这里 Z t Z_t Zt独立同分布于 N p ( 0 , Σ ) N_p(0,\Sigma) Np(0,Σ)

  • Wishart分布关于自由度 n n n具有可加性,这与 χ 2 \chi^2 χ2分布类似,即 W i ∼ W p ( n i , Σ ) W_i\sim W_p(n_i,\Sigma) WiWp(ni,Σ)相互独立,则
    ∑ i = 1 k W i ∼ W p ( ∑ i = 1 k n i , Σ ) . \sum_{i=1}^k W_i\sim W_p(\sum_{i=1}^k n_i,\Sigma). i=1kWiWp(i=1kni,Σ).

  • Wishart分布服从可线性变换性,设 W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) WWp(n,Σ) C C C m × p m\times p m×p常数阵,则
    C W C ′ ∼ W m ( n   , C Σ C ′ ) . CWC' \sim W_m(n\,,C\Sigma C'). CWCWm(n,CΣC).
    可以从定义式入手, W = ∑ i = 1 n Z α Z α ′ W=\sum_{i=1}^n Z_\alpha Z_\alpha' W=i=1nZαZα,令 Y α = C Z α ∼ N m ( 0 , C Σ C ′ ) Y_{\alpha}=CZ_{\alpha}\sim N_m(0,C\Sigma C') Yα=CZαNm(0,CΣC),计算 C W C ′ CWC' CWC就得结论。

    特别地,取 C = a I p C=\sqrt aI_p C=a Ip时,得到 a W ∼ W p ( n , a Σ ) aW\sim W_p(n,a\Sigma) aWWp(n,aΣ)

    特别地,取 C ′ = l = ( l 1 , ⋯   , l p ) ′ C'=l=(l_1,\cdots,l_p)' C=l=(l1,,lp)时,得到 l ′ W l = ξ ∼ W ( n , l ′ Σ l ) l'Wl=\xi\sim W(n,l'\Sigma l) lWl=ξW(n,lΣl)。设 σ 2 = l ′ Σ l \sigma^2=l'\Sigma l σ2=lΣl,则将Wishart分布与 χ 2 \chi^2 χ2分布联系起来,有 ξ ∼ σ 2 χ 2 ( n ) \xi\sim \sigma^2\chi^2(n) ξσ2χ2(n)。这里建立了Wishart分布与一元统计的桥梁。

  • 分块Wishart分布:将 W W W类似 X , Σ X,\Sigma X,Σ一样分解,则 W 11 ∼ W r ( n , Σ 11 ) , W 22 ∼ W p − r ( n , Σ 22 ) W_{11}\sim W_r(n,\Sigma_{11}),W_{22}\sim W_{p-r}(n,\Sigma_{22}) W11Wr(n,Σ11),W22Wpr(n,Σ22),且当 Σ 12 = O \Sigma_{12}=O Σ12=O W 11 W_{11} W11 W 22 W_{22} W22相互独立。

  • 条件Wishart分布: W W W也可以类似寻找 W 11 W_{11} W11 W 22 W_{22} W22的回归,记 W 11 ⋅ 2 = W 11 − W 12 W 22 − 1 W 21 W_{11\cdot2}=W_{11}-W_{12}W_{22}^{-1}W_{21} W112=W11W12W221W21,则
    W 11 ⋅ 2 ∼ W p ( r , Σ 11 ⋅ 2 ) , W_{11\cdot 2}\sim W_p(r,\Sigma_{11\cdot2}), W112Wp(r,Σ112),
    W 11 ⋅ 2 W_{11\cdot 2} W112 W 22 W_{22} W22相互独立,这点与 X ( 1 ) X_{(1)} X(1) X ( 2 ) X_{(2)} X(2)的回归类似。

  • Wishart分布的期望: W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) WWp(n,Σ),则 E W = n Σ {\rm E}W=n\Sigma EW=nΣ。在 χ 2 \chi^2 χ2的情形,如果 ξ ∼ σ 2 χ 2 ( n ) \xi \sim \sigma^2\chi^2(n) ξσ2χ2(n),则 E W = σ 2 n {\rm E}W=\sigma^2n EW=σ2n

  • 与一元统计中二次型类似的结论:设 X ∼ N n × p ( M , I n ⊗ Σ ) X\sim N_{n\times p}(M,I_n\otimes \Sigma) XNn×p(M,InΣ) A , B A,B A,B都是 n n n阶幂等矩阵,设 Δ = M ′ A M \Delta =M'AM Δ=MAM,则
    X ′ A X ∼ W p ( r , Σ , Δ ) ⇔ A 2 = A , 且 r a n k ( A ) = r ; X ′ A X 与 X ′ B X 相 互 独 立 ⇔ A B = O . X'AX\sim W_p(r, \Sigma, \Delta)\Leftrightarrow A^2=A,且{\rm rank}(A)=r;\\ X'AX与X'BX相互独立\Leftrightarrow AB=O. XAXWp(r,Σ,Δ)A2=A,rank(A)=r;XAXXBXAB=O.

3.霍特林(Hotelling) T 2 T^2 T2分布

Hotelling T 2 T^2 T2分布是一元统计中 t t t分布的推广,在一元统计中定义的 t t t变量为 X / ξ / n X/\sqrt{\xi /n} X/ξ/n ,其中 X , ξ X,\xi X,ξ相互独立,且 X X X是标准正态变量, ξ \xi ξ服从自由度为 n n n的卡方分布。现将 t 2 t^2 t2推广为 T 2 T^2 T2,就得到Hotelling T 2 T^2 T2分布的定义。

Hotelling T 2 T^2 T2分布:设 X ∼ N p ( 0 , Σ ) X\sim N_p(0,\Sigma) XNp(0,Σ),随机阵 W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) WWp(n,Σ) Σ > 0 , n ≥ p \Sigma>0,n\ge p Σ>0,np,且 X , W X,W X,W相互独立,则Hotelling T 2 T^2 T2统计量定义为 T 2 = X ′ ( W − 1 n ) X = n X ′ W − 1 X T^2=X'(\frac {W^{-1}}n)X=nX'W^{-1}X T2=X(nW1)X=nXW1X,记作 T 2 ∼ T 2 ( p , n ) T^2\sim T^2(p,n) T2T2(p,n)

非中心Hotelling T 2 T^2 T2分布:设 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),则存在非中心Hotelling T 2 T^2 T2分布 T 2 = n X ′ W − 1 X T^2=nX'W^{-1}X T2=nXW1X,记作 T 2 ∼ T 2 ( p , n , μ ) T^2\sim T^2(p,n,\mu) T2T2(p,n,μ)

注意到,定义Hotelling T 2 T^2 T2统计量时,虽然为正态向量与Wishart向量都指定了自协方差矩阵 Σ \Sigma Σ,但在最后 T 2 T^2 T2分布的表达式中却没有出现,这说明Hotelling T 2 T^2 T2统计量是 Σ \Sigma Σ无关的。同时,非中心Hotelling T 2 T^2 T2分布的非中心参数也只是 μ \mu μ,而不是非中心Wishart分布中的 n μ μ ′ n\mu\mu' nμμ

现在证明Hotelling T 2 T^2 T2统计量的分布与 Σ \Sigma Σ无关,只要证明对任何 T 2 = n X ′ W − 1 X T^2=nX' W^{-1}X T2=nXW1X,都与标准正态随机向量 U ∼ N p ( 0 , I p ) U\sim N_p(0,I_p) UNp(0,Ip)与对应的Wishart统计量 W 0 ∼ W p ( n , I n ) W_0\sim W_p(n,I_n) W0Wp(n,In)构成的 T 0 2 = n U ′ W 0 − 1 U T_0^2=nU'W_0^{-1}U T02=nUW01U同分布即可。由于 X ∼ N p ( 0 , Σ ) , W ∼ W p ( n , Σ ) X\sim N_p(0,\Sigma),W\sim W_p(n,\Sigma) XNp(0,Σ),WWp(n,Σ),所以
U = d Σ − 1 / 2 X , W 0 = d Σ − 1 / 2 W Σ − 1 / 2 . n U ′ W 0 − 1 / 2 U = d n X ′ Σ − 1 / 2 Σ 1 / 2 W − 1 Σ 1 / 2 Σ 1 / 2 X = n X ′ W − 1 X . U\stackrel {\rm d}= \Sigma^{-1/2}X,\quad W_0\stackrel {\rm d}= \Sigma^{-1/2}W\Sigma^{-1/2}.\\ nU'W_0^{-1/2} U\stackrel {\rm d}= nX'\Sigma^{-1/2}\Sigma^{1/2}W^{-1}\Sigma^{1/2}\Sigma^{1/2}X=nX'W^{-1}X. U=dΣ1/2X,W0=dΣ1/2WΣ1/2.nUW01/2U=dnXΣ1/2Σ1/2W1Σ1/2Σ1/2X=nXW1X.
除此之外,Hotelling T 2 T^2 T2分布还有以下不需证明,但需要记忆的性质。

  • X ( α ) X_{(\alpha)} X(α)是来自 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的随机样本, X ˉ , A \bar X,A Xˉ,A分别是正态总体 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的样本均值向量和样本离差阵,则建立如下统计量可以在 Σ \Sigma Σ未知时用来对 μ \mu μ进行参数检验
    T 2 = [ n ( X ˉ − μ ) ] ′ ( A n − 1 ) [ n ( X ˉ − μ ) ] = n ( n − 1 ) ( X ˉ − μ ) ′ A ( X ˉ − μ ) ∼ T 2 ( p , n − 1 ) . T^2=[\sqrt n(\bar X-\mu)]'(\frac{A}{n-1})[\sqrt n(\bar X-\mu)]=n(n-1)(\bar X-\mu)'A(\bar X-\mu)\sim T^2(p,n-1). T2=[n (Xˉμ)](n1A)[n (Xˉμ)]=n(n1)(Xˉμ)A(Xˉμ)T2(p,n1).
    这一点与一元统计中 t t t分布的应用是类似的。

  • T 2 T^2 T2分布与 F F F分布之间存在关系:若 T 2 ∼ T 2 ( p , n ) T^2\sim T^2(p,n) T2T2(p,n),则
    n − p + 1 n p T 2 ∼ F ( p , n − p + 1 ) . \frac{n-p+1}{np}T^2\sim F(p,n-p+1). npnp+1T2F(p,np+1).
    这就建立了 T 2 T^2 T2分布与一元三大分布的联系。另外,令 δ = n μ ′ Σ − 1 μ \delta=n\mu'\Sigma^{-1}\mu δ=nμΣ1μ,还有
    n − p ( n − 1 ) p T 2 ∼ F ( p , n − p , δ ) . \frac{n-p}{(n-1)p}T^2\sim F(p,n-p,\delta). (n1)pnpT2F(p,np,δ).

  • T 2 T^2 T2统计量对非退化变换不变,即如果存在一个常数阵 C p × p C_{p\times p} Cp×p p p p维向量 d d d Y ( α ) = C X ( α ) + d Y_{(\alpha)}=CX_{(\alpha)}+d Y(α)=CX(α)+d,则 T y 2 = n ( n − 1 ) [ Y ˉ − ( C μ + d ) ] ′ A y − 1 [ Y ˉ − ( C μ + d ) ] = T x 2 T_y^2=n(n-1)[\bar Y-(C\mu+d)]'A_y^{-1}[\bar Y-(C\mu+d)]=T_x^2 Ty2=n(n1)[Yˉ(Cμ+d)]Ay1[Yˉ(Cμ+d)]=Tx2,只要注意到 Y = X C ′ + 1 p d ′ Y=XC'+\boldsymbol 1_pd' Y=XC+1pd

4.威尔克斯(Wilks) Λ \Lambda Λ分布

显然,Wilks分布应该对应一元分布中的 F F F分布,而 F F F分布主要用于检验两个正态总体的方差比。在多元统计中,方差变成了自协方差矩阵,不能直接作比,除非我们用一个数值来描述总体的离散程度。为此,我们定义广义方差的概念。

对于正态总体 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),协方差阵的行列式 ∣ Σ ∣ |\Sigma| Σ称为总体 X X X的广义方差;如果从总体中抽取样本 X ( α ) ( α = 1 , ⋯   , n ) X_{(\alpha)}(\alpha=1,\cdots,n) X(α)(α=1,,n),则样本广义方差定义为 det ⁡ ( A n ) \det(\frac An) det(nA) det ⁡ ( A n − 1 ) \det(\frac A{n-1}) det(n1A)

在有了样本广义方差的定义后,我们可以介绍Wilks分布的定义。

Wilks分布:设 A 1 ∼ W p ( n 1 , Σ ) , A 2 ∼ W p ( n 2 , Σ ) A_1\sim W_p(n_1,\Sigma),A_2\sim W_p(n_2,\Sigma) A1Wp(n1,Σ),A2Wp(n2,Σ),则定义Wilks统计量为
Λ = ∣ A 1 ∣ ∣ A 1 + A 2 ∣ . \Lambda=\frac{|A_1|}{|A_1+A_2|}. Λ=A1+A2A1.
记作 Λ ∼ Λ ( p , n 1 , n 2 ) \Lambda \sim \Lambda(p,n_1,n_2) ΛΛ(p,n1,n2)

如果 p = 1 p=1 p=1,则上下两个Wishart分布将退化成 χ 2 \chi^2 χ2分布,而 χ 2 \chi^2 χ2分布又是同尺度参数的 Γ \Gamma Γ分布,故 Λ ( 1 , n 1 , n 2 ) = β ( n 1 2 , n 2 2 ) \Lambda(1,n_1,n_2)=\beta(\frac {n_1}2,\frac{n_2}2) Λ(1,n1,n2)=β(2n1,2n2)

以下是一些 Λ \Lambda Λ分布与 T 2 T^2 T2分布的联系,由于 T 2 T^2 T2分布可以直接转化成 F F F分布,所以 Λ \Lambda Λ分布也可以联系上 F F F分布。

  • n 2 = 1 n_2=1 n2=1时,设 n = n 1 > p n=n_1>p n=n1>p,则
    Λ ( p , n , 1 ) = d 1 1 + 1 n T 2 ( p , n ) , T 2 ( p , n ) = d n ⋅ 1 − Λ ( p , n , 1 ) Λ ( p , n , 1 ) . n − p + 1 n p T 2 ( p , n ) = d n − p + 1 p 1 − Λ ( p , n , 1 ) Λ ( p , n , 1 ) = d F ( p , n − p + 1 ) . \Lambda(p,n,1)\stackrel {\rm d}=\frac{1}{1+\frac 1nT^2(p,n)},\quad T^2(p,n)\stackrel {\rm d}=n\cdot\frac{1-\Lambda(p,n,1)}{\Lambda(p,n,1)}.\\ \frac{n-p+1}{np}T^2(p,n)\stackrel {\rm d}=\frac{n-p+1}{p}\frac{1-\Lambda(p,n,1)}{\Lambda(p,n,1)}\stackrel {\rm d}=F(p,n-p+1). Λ(p,n,1)=d1+n1T2(p,n)1,T2(p,n)=dnΛ(p,n,1)1Λ(p,n,1).npnp+1T2(p,n)=dpnp+1Λ(p,n,1)1Λ(p,n,1)=dF(p,np+1).

  • n 2 = 2 n_2=2 n2=2时,设 n = n 1 > p n=n_1>p n=n1>p,则
    n − p + 1 n 1 − Λ ( p , n , 2 ) Λ ( p , n , 2 ) = d F ( 2 p , 2 ( n − p + 1 ) ) . \frac{n-p+1}{n}\frac{1-\sqrt{\Lambda(p,n,2)}}{\sqrt{\Lambda(p,n,2)}}\stackrel {\rm d}= F(2p,2(n-p+1)). nnp+1Λ(p,n,2) 1Λ(p,n,2) =dF(2p,2(np+1)).

  • p = 1 p=1 p=1时,
    n 1 n 2 1 − Λ ( 1 , n 1 , n 2 ) Λ ( 1 , n 1 , n 2 ) = d F ( n 2 , n 1 ) . \frac{n_1}{n_2}\frac{1-\Lambda(1,n_1,n_2)}{\Lambda(1,n_1,n_2)}\stackrel {\rm d}=F(n_2,n_1). n2n1Λ(1,n1,n2)1Λ(1,n1,n2)=dF(n2,n1).

  • p = 2 p=2 p=2时,
    n 1 − 1 n 2 1 − Λ ( 2 , n 1 , n 2 ) Λ ( 2 , n 1 , n 2 ) = d F ( 2 n 2 , 2 ( n 1 − 1 ) ) . \frac{n_1-1}{n_2}\frac{1-\sqrt{\Lambda(2,n_1,n_2)}}{\sqrt{\Lambda(2,n_1,n_2)}}\stackrel {\rm d}=F(2n_2,2(n_1-1)). n2n11Λ(2,n1,n2) 1Λ(2,n1,n2) =dF(2n2,2(n11)).

  • n 2 > 2 , p > 2 n_2>2,p>2 n2>2,p>2时,可以用 χ 2 \chi^2 χ2统计量近似,即对于 Λ ( p , n 1 , n 2 ) \Lambda(p,n_1,n_2) Λ(p,n1,n2),当 n → ∞ n\to \infty n时有
    − r ln ⁡ Λ ∼ χ 2 ( p n 2 ) , r = n 1 − 1 2 ( p − n 2 + 1 ) . -r\ln \Lambda\sim \chi^2(pn_2),\quad r=n_1-\frac12(p-n_2+1). rlnΛχ2(pn2),r=n121(pn2+1).

除此之外,还有两个结论:

  • Λ ∼ Λ ( p , n 1 , n 2 ) \Lambda\sim\Lambda(p,n_1,n_2) ΛΛ(p,n1,n2),则存在 B k ∼ β ( n 1 − p + k 2 , n 2 2 ) ( k = 1 , ⋯   , p ) B_k\sim \beta(\frac{n_1-p+k}{2},\frac{n_2}{2})(k=1,\cdots,p) Bkβ(2n1p+k,2n2)(k=1,,p)相互独立,使得
    Λ = d B 1 B 2 ⋯ B k . \Lambda\stackrel {\rm d}=B_1B_2\cdots B_k. Λ=dB1B2Bk.

  • n 2 < p n_2<p n2<p,则
    Λ ( p , n 1 , n 2 ) = d Λ ( n 2 , p , n 1 + n 2 − p ) . \Lambda(p,n_1,n_2)\stackrel {\rm d}=\Lambda(n_2,p,n_1+n_2-p). Λ(p,n1,n2)=dΛ(n2,p,n1+n2p).

本文中提到许多结论,大多在假设检验中发挥作用,尽管不需要证明,但还是需要牢记。

回顾总结

  1. 非中心三大分布:

    分布定义非中心参数
    非中心 χ 2 \chi^2 χ2分布对于 n n n个独立的正态随机变量 X i ∼ N ( μ i , σ 2 ) X_i\sim N(\mu_i,\sigma^2) XiN(μi,σ2),有 χ 2 = ∑ i = 1 n X i 2 ∼ χ 2 ( n , δ ) \chi^2=\sum\limits_{i=1}^n X_i^2\sim \chi^2(n,\delta) χ2=i=1nXi2χ2(n,δ) δ = ∑ i = 1 n μ i 2 \delta=\sum\limits_{i=1}^n \mu_i^2 δ=i=1nμi2
    非中心 t t t分布 X ∼ N ( δ , 1 ) , ξ ∼ χ 2 ( n ) X\sim N(\delta,1),\xi\sim \chi^2(n) XN(δ,1),ξχ2(n)相互独立,有 t = X ξ / n ∼ t ( n , δ ) t=\frac{X}{\sqrt{\xi/n}}\sim t(n,\delta) t=ξ/n Xt(n,δ) δ \delta δ
    非中心 F F F分布 X ∼ χ 2 ( n 1 , δ ) , Y ∼ χ 2 ( n 2 ) X\sim \chi^2(n_1,\delta),Y\sim \chi^2(n_2) Xχ2(n1,δ),Yχ2(n2)相互独立,有 F = X / n 1 Y / n 2 ∼ F ( n 1 , n 2 , δ ) F=\frac{X/n_1}{Y/n_2}\sim F(n_1,n_2,\delta) F=Y/n2X/n1F(n1,n2,δ) δ \delta δ
  2. 假设 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),则 μ = 0 \mu=0 μ=0 X ′ A X ∼ σ 2 χ 2 ( r ) X'AX\sim \sigma^2\chi^2(r) XAXσ2χ2(r)等价于 A A A是秩为 r r r的幂等矩阵; μ ≠ 0 \mu\ne 0 μ=0时, X ′ A X ∼ σ 2 χ 2 ( r , δ ) X'AX\sim \sigma^2\chi^2(r,\delta) XAXσ2χ2(r,δ)等价于 A A A是秩为 r r r的幂等矩阵,这里 δ = μ ′ A μ \delta=\mu'A\mu δ=μAμ

  3. 假设 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),则 X ′ Σ − 1 X ∼ χ 2 ( p , δ ) X'\Sigma^{-1}X\sim \chi^2(p,\delta) XΣ1Xχ2(p,δ),这里 δ = μ ′ Σ − 1 μ \delta=\mu'\Sigma^{-1}\mu δ=μΣ1μ

  4. 如果 A n × n A_{n\times n} An×n是对称阵, B m × n B_{m\times n} Bm×n,则 X ′ A X X'AX XAX B X BX BX独立 ⇔ B A = O \Leftrightarrow BA=O BA=O

  5. 对于对称阵 A , B A,B A,B X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) XNp(μ,Σ),有
    ( r a n k ( A ) = r ) ( X − μ ) ′ A ( X − μ ) ∼ χ 2 ( r ) ⇔ Σ A Σ A Σ = Σ A Σ , ( X − μ ) ′ A ( X − μ ) 和 ( X − μ ) ′ B ( X − μ ) 独 立 ⇔ A B = O . ({\rm rank}(A)=r)\quad (X-\mu)'A(X-\mu)\sim \chi^2(r)\Leftrightarrow \Sigma A\Sigma A\Sigma =\Sigma A\Sigma,\\ (X-\mu)'A(X-\mu)和(X-\mu)'B(X-\mu)独立\Leftrightarrow AB=O. (rank(A)=r)(Xμ)A(Xμ)χ2(r)ΣAΣAΣ=ΣAΣ,(Xμ)A(Xμ)(Xμ)B(Xμ)AB=O.

  6. 多元三大分布:

    分布类型表达式
    Wishart W W W分布随机矩阵的分布。 X ( α ) ∼ N p ( 0 , Σ ) , α = 1 , ⋯   , n X_{(\alpha)}\sim N_p(0,\Sigma),\alpha=1,\cdots,n X(α)Np(0,Σ),α=1,,n. W = ∑ α = 1 n X ( α ) X ( α ) ′ ∼ W p ( n , Σ ) W=\sum\limits_{\alpha=1}^n X_{(\alpha)}X_{(\alpha)}'\sim W_p(n,\Sigma) W=α=1nX(α)X(α)Wp(n,Σ)
    Hotelling T 2 T^2 T2分布一元分布。 X ∼ N p ( 0 , Σ ) , W ∼ W p ( n , Σ ) X\sim N_p(0,\Sigma),W\sim W_p(n,\Sigma) XNp(0,Σ),WWp(n,Σ) T 2 = n X ′ W − 1 X ∼ T 2 ( p , n ) T^2=nX'W^{-1}X\sim T^2(p,n) T2=nXW1XT2(p,n)
    Wilks Λ \Lambda Λ分布一元分布。 A 1 ∼ W 1 ( n 1 , Σ ) , A 2 ∼ W ( n 2 , Σ ) A_1\sim W_1(n_1,\Sigma),A_2\sim W(n_2,\Sigma) A1W1(n1,Σ),A2W(n2,Σ)$\Lambda=\dfrac{
  7. Wishart分布的相关性质

    • 正态总体样本中, A ∼ W p ( n − 1 , Σ ) A\sim W_p(n-1,\Sigma) AWp(n1,Σ)
    • 关于 n n n服从可加性。
    • 可线性变换, W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) WWp(n,Σ),则 C W C ′ ∼ W p ( n , C Σ C ′ ) CWC'\sim W_p(n,C\Sigma C') CWCWp(n,CΣC)。特别地有 a W ∼ W p ( n , a Σ ) aW\sim W_p(n,a\Sigma) aWWp(n,aΣ) l ′ W l ∼ W p ( n , l ′ Σ l ) ∼ l ′ Σ l χ 2 ( n ) l'W l\sim W_p(n,l'\Sigma l)\sim l'\Sigma l\chi^2(n) lWlWp(n,lΣl)lΣlχ2(n)
    • E W = n Σ {\rm E}W=n\Sigma EW=nΣ
  8. Hotelling T 2 T^2 T2分布的相关性质

    • Hotelling T 2 T^2 T2分布与定义中的 Σ \Sigma Σ无关。

    • n ( n − 1 ) X ′ A − 1 X ∼ T 2 ( p , n − 1 ) n(n-1)X'A^{-1}X\sim T^2(p,n-1) n(n1)XA1XT2(p,n1)

    • T 2 T^2 T2统计量在非退化变换下不变。

    • T 2 T^2 T2分布与 F F F分布存在联系,有
      n − p + 1 n p T 2 ( p , n ) = d F ( p , n − p + 1 ) . \frac{n-p+1}{np}T^2(p,n)\stackrel {\rm d}=F(p,n-p+1). npnp+1T2(p,n)=dF(p,np+1).

  9. Wilks Λ \Lambda Λ分布的相关性质

    • Λ ( p , n 1 , n 2 ) \Lambda(p,n_1,n_2) Λ(p,n1,n2)可以看成 p p p个独立的 B k = β ( n 1 − p + k 2 , n 2 2 ) B_k=\beta(\frac{n_1-p+k}{2},\frac{n_2}2) Bk=β(2n1p+k,2n2)的乘积。

    • 如果 n 2 < p n_2<p n2<p,则 1 / Λ ( p , n 1 , n 2 ) = Λ ( n 2 , p , n 1 + n 2 − p ) 1/\Lambda(p,n_1,n_2)=\Lambda(n_2,p,n_1+n_2-p) 1/Λ(p,n1,n2)=Λ(n2,p,n1+n2p)

    • Λ \Lambda Λ可以转化为 T 2 T^2 T2分布,当 n 2 , p > 2 n_2,p>2 n2,p>2时,随着 n 1 n_1 n1的增加,有
      − r ln ⁡ Λ = χ 2 ( p n 2 ) , r = n 1 − 1 2 ( p − n 2 + 1 ) . -r\ln \Lambda=\chi^2(pn_2),\quad r=n_1-\frac12(p-n_2+1). rlnΛ=χ2(pn2),r=n121(pn2+1).
      特别当 n 2 = 1 n_2=1 n2=1时,有
      Λ ( p , n , 1 ) = d 1 1 + 1 n T 2 ( p , n ) , \Lambda(p,n,1)\stackrel {\rm d}=\frac{1}{1+\frac1nT^2(p,n)}, Λ(p,n,1)=d1+n1T2(p,n)1,
      p = 1 p=1 p=1时,有
      n 1 n 2 1 − Λ ( 1 , n 1 , n 2 ) Λ ( 1 , n 1 , n 2 ) = d F ( n 2 , n 1 ) . \frac{n_1}{n_2}\frac{1-\Lambda(1,n_1,n_2)}{\Lambda(1,n_1,n_2)}\stackrel {\rm d}=F(n_2,n_1). n2n1Λ(1,n1,n2)1Λ(1,n1,n2)=dF(n2,n1).

  • 16
    点赞
  • 75
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值