文章目录
五、多元统计的“三大分布”
一元正态总体参数 μ , σ 2 \mu,\sigma^2 μ,σ2的参数检验,涉及到单总体、多总体,有三种比较常见的分布: χ 2 \chi^2 χ2分布, t t t分布, F F F分布;推广到多元正态总体上,也有三种对应的分布。在介绍多元统计的三大分布之前,先介绍正态变量二次型的分布以及非中心三大分布。
1.正态变量的二次型
正态变量二次型的分布,是对独立的同方差正态变量 X i ∼ N 1 ( μ i , σ 2 ) , σ 2 ≠ 0 X_i\sim N_1(\mu_i,\sigma^2),\sigma^2\ne 0 Xi∼N1(μi,σ2),σ2=0而言的。如果记 X = ( X 1 , ⋯ , X n ) ′ X=(X_1,\cdots,X_n)' X=(X1,⋯,Xn)′,则 X ∼ N p ( μ , σ 2 I n ) X\sim N_p(\mu,\sigma^2I_n) X∼Np(μ,σ2In),这里 μ = ( μ 1 , ⋯ , μ n ) ′ \mu=(\mu_1,\cdots,\mu_n)' μ=(μ1,⋯,μn)′。对于一个矩阵 A n × n A_{n\times n} An×n, X ′ A X X'AX X′AX就称为二次型,很多时候 A A A还会是对称阵。
从简单的开始讨论,首先讨论
A
=
I
n
A=I_n
A=In,此时
ξ
=
X
′
I
n
X
=
X
′
X
\xi=X'I_nX=X'X
ξ=X′InX=X′X。更进一步简化
μ
=
0
\mu=0
μ=0,就得到
ξ
σ
2
=
∑
α
=
1
n
X
α
2
σ
2
∼
χ
2
(
n
)
.
\frac{\xi}{\sigma^2}=\sum_{\alpha=1}^n \frac{X_{\alpha}^2}{\sigma^2}\sim \chi^2(n).
σ2ξ=α=1∑nσ2Xα2∼χ2(n).
这就是我们对
χ
2
\chi^2
χ2分布的定义,为了方便记忆,我们也可以写成
X
′
X
∼
σ
2
χ
2
(
n
)
X'X\sim \sigma^2\chi^2(n)
X′X∼σ2χ2(n)。
而如果
μ
≠
0
\mu\ne0
μ=0,我们可以类似定义非中心
χ
2
\chi^2
χ2分布,只需要加入非中心参数
δ
=
μ
′
μ
=
∑
α
=
1
n
μ
α
2
\delta=\mu'\mu=\sum_{\alpha=1}^n \mu_\alpha^2
δ=μ′μ=∑α=1nμα2,此时对
σ
2
=
1
\sigma^2=1
σ2=1时,就应该有
X
′
X
∼
χ
2
(
n
,
δ
)
X'X\sim \chi^2(n,\delta)
X′X∼χ2(n,δ);当
σ
2
≠
1
\sigma^2\ne 1
σ2=1时,令
Y
i
=
X
i
/
σ
Y_i=X_i/\sigma
Yi=Xi/σ,则
Y
i
∼
N
1
(
μ
/
σ
,
1
)
Y_i\sim N_1(\mu/\sigma,1)
Yi∼N1(μ/σ,1),且
Y
′
Y
∼
χ
2
(
n
,
δ
/
σ
2
)
Y'Y\sim \chi^2(n,\delta/\sigma^2)
Y′Y∼χ2(n,δ/σ2),所以
X
′
X
∼
σ
2
χ
2
(
n
,
δ
σ
2
)
.
X'X\sim \sigma^2\chi^2(n,\frac{\delta}{\sigma^2}).
X′X∼σ2χ2(n,σ2δ).
既然提出了非中心
χ
2
\chi^2
χ2分布,就顺道提一下非中心
t
t
t分布与非中心
F
F
F分布。非中心
t
t
t分布是指对相互独立的
X
∼
N
(
δ
,
1
)
,
Y
∼
χ
2
(
n
)
X\sim N(\delta,1),Y\sim \chi^2(n)
X∼N(δ,1),Y∼χ2(n),
T
=
X
Y
/
n
T=\frac{X}{\sqrt{Y/n}}
T=Y/nX的分布,记作
T
∼
t
(
n
,
δ
)
T\sim t(n,\delta)
T∼t(n,δ);非中心
F
F
F分布是指对相互独立的
X
∼
χ
2
(
m
,
δ
)
,
Y
∼
χ
2
(
n
)
X\sim \chi^2(m,\delta),Y\sim \chi^2(n)
X∼χ2(m,δ),Y∼χ2(n),
F
=
X
/
m
Y
/
n
F=\frac{X/m}{Y/n}
F=Y/nX/m的分布,记作
F
∼
F
(
m
,
n
,
δ
)
F\sim F(m,n,\delta)
F∼F(m,n,δ)。
接下来,将情况变得复杂一点, A A A不是单位阵,而扩展到幂等对称阵,即 A 2 = A A^2=A A2=A。幂等矩阵有一个特征,是它的特征值只能是0或1,因为 A ( A − I ) = 0 ⇔ λ ( λ − 1 ) = 0 A(A-I)=0\Leftrightarrow \lambda(\lambda-1)=0 A(A−I)=0⇔λ(λ−1)=0。基于此,我们得到以下结论:
若 X ∼ N n ( 0 , σ 2 I n ) X\sim N_n(0,\sigma^2I_n) X∼Nn(0,σ2In), A A A为对称阵且 r a n k ( A ) = r {\rm rank}(A)=r rank(A)=r,则
X ′ A X ∼ σ 2 χ 2 ( r ) ⇔ A 2 = A . X'AX\sim \sigma^2\chi^2(r)\Leftrightarrow A^2=A. X′AX∼σ2χ2(r)⇔A2=A.
若 X ∼ N n ( μ , σ 2 I n ) X\sim N_n(\mu,\sigma^2I_n) X∼Nn(μ,σ2In), A A A为对称阵,则令 δ = μ ′ A μ / σ 2 \delta=\mu'A\mu/\sigma^2 δ=μ′Aμ/σ2,有
X ′ A X ∼ σ 2 χ 2 ( r , δ ) ⇔ A 2 = A 且 r a n k ( A ) = r . X'AX\sim \sigma^2\chi^2(r,\delta)\Leftrightarrow A^2=A且{\rm rank}(A)=r. X′AX∼σ2χ2(r,δ)⇔A2=A且rank(A)=r.
证明第一个结论,先证充分性
⇒
\Rightarrow
⇒。因为
A
A
A对称,所以存在正交阵
Γ
\Gamma
Γ使得
Γ
A
Γ
′
=
d
i
a
g
(
λ
1
,
λ
2
,
⋯
,
λ
r
,
0
,
⋯
,
0
)
=
d
Λ
.
\Gamma A\Gamma'={\rm diag}(\lambda_1,\lambda_2,\cdots,\lambda_r,0,\cdots,0)\stackrel {\rm d}=\Lambda.
ΓAΓ′=diag(λ1,λ2,⋯,λr,0,⋯,0)=dΛ.
令
Y
=
Γ
′
X
∼
N
(
0
,
σ
2
I
n
)
Y=\Gamma'X\sim N(0,\sigma^2I_n)
Y=Γ′X∼N(0,σ2In),则
X
=
Γ
Y
X=\Gamma Y
X=ΓY,有
ξ
=
X
′
A
X
σ
2
=
Y
′
Λ
Y
σ
2
=
∑
α
=
1
r
λ
α
Y
α
2
/
σ
2
.
\xi=\frac{X'AX}{\sigma^2}=\frac{Y'\Lambda Y}{\sigma^2}=\sum_{\alpha=1}^r \lambda_\alpha Y_{\alpha}^2/\sigma^2.
ξ=σ2X′AX=σ2Y′ΛY=α=1∑rλαYα2/σ2.
这里
Y
α
2
/
σ
2
Y_\alpha^2/\sigma^2
Yα2/σ2服从
χ
2
(
1
)
\chi^2(1)
χ2(1)分布。又因为
χ
2
(
k
)
\chi^2(k)
χ2(k)分布的特征函数是
(
1
−
2
i
t
)
−
k
/
2
(1-2{\rm i}t)^{-k/2}
(1−2it)−k/2且各
Y
α
Y_{\alpha}
Yα独立,所以
ξ
\xi
ξ的特征函数是
φ
ξ
(
t
)
=
[
(
1
−
2
i
λ
1
t
)
⋯
(
1
−
2
i
λ
r
t
)
]
1
/
2
=
(
1
−
2
i
t
)
r
/
2
.
\varphi_\xi(t)=[(1-2{\rm i}\lambda_1t)\cdots(1-2{\rm i}\lambda_rt)]^{1/2}=(1-2{\rm i}t)^{r/2}.
φξ(t)=[(1−2iλ1t)⋯(1−2iλrt)]1/2=(1−2it)r/2.
由此可以推出
λ
1
=
⋯
=
λ
r
=
1
\lambda_1=\cdots=\lambda_r=1
λ1=⋯=λr=1,从而
A
2
=
Γ
′
Λ
Γ
Γ
′
Λ
Γ
=
Γ
′
Λ
2
Γ
=
A
A^2=\Gamma'\Lambda\Gamma\Gamma'\Lambda\Gamma=\Gamma'\Lambda^2\Gamma=A
A2=Γ′ΛΓΓ′ΛΓ=Γ′Λ2Γ=A。
再证必要性
⇐
\Leftarrow
⇐,由题意存在一个
Γ
\Gamma
Γ,使得
Γ
′
A
Γ
=
[
I
r
O
O
O
]
.
\Gamma' A\Gamma=\begin{bmatrix} I_r & O\\ O & O \end{bmatrix}.
Γ′AΓ=[IrOOO].
令
Y
=
Γ
′
X
,
X
=
Γ
Y
Y=\Gamma'X,X=\Gamma Y
Y=Γ′X,X=ΓY,则
Y
∼
N
(
0
,
σ
2
I
n
)
Y\sim N(0,\sigma^2I_n)
Y∼N(0,σ2In),且
ξ
=
X
′
A
X
σ
2
=
Y
′
Γ
A
Γ
Y
σ
2
=
1
σ
2
Y
′
[
I
r
O
O
O
]
Y
=
1
σ
2
∑
α
=
1
r
Y
α
2
.
\xi=\frac{X'AX}{\sigma^2}=\frac{Y'\Gamma A\Gamma Y}{\sigma^2}=\frac1{\sigma^2}Y'\begin{bmatrix}I_r & O \\ O & O \end{bmatrix}Y=\frac 1{\sigma^2}\sum_{\alpha=1}^r Y_\alpha^2.
ξ=σ2X′AX=σ2Y′ΓAΓY=σ21Y′[IrOOO]Y=σ21α=1∑rYα2.
所以
X
′
A
X
∼
σ
2
χ
2
(
r
)
X'AX\sim \sigma^2\chi^2(r)
X′AX∼σ2χ2(r)。对于非中心的情况,在不知道非中心
χ
2
\chi^2
χ2分布特征函数的情况下不太好证明,记住结论即可。
对于随机正态变量的二次型,还有以下关于独立性的结论:
设 X ∼ N n ( μ , σ 2 I n ) X\sim N_n(\mu,\sigma^2I_n) X∼Nn(μ,σ2In), A A A为 n n n阶对称矩阵, B B B为 m × n m\times n m×n矩阵,令 ξ = X ′ A X , Z = B X \xi=X'AX,Z=BX ξ=X′AX,Z=BX,则
B A = O ⇔ Z = B X 与 ξ = X ′ A X 相 互 独 立 . BA=O\Leftrightarrow Z=BX与\xi=X'AX相互独立. BA=O⇔Z=BX与ξ=X′AX相互独立.
也就是,当 B A = O BA=O BA=O时,多元正态分布 Z = B X Z=BX Z=BX与二次型随机向量 X ′ A X X'AX X′AX相互独立。
最后,对于一般 p p p维正态随机向量 X ∼ N p ( μ , Σ ) , Σ > 0 X\sim N_p(\mu,\Sigma),\Sigma>0 X∼Np(μ,Σ),Σ>0,有以下结论:
-
结论一: X ′ Σ − 1 X ∼ χ 2 ( p , δ ) X'\Sigma^{-1}X\sim \chi^2(p,\delta) X′Σ−1X∼χ2(p,δ),其中 δ = μ ′ Σ − 1 μ \delta=\mu'\Sigma^{-1}\mu δ=μ′Σ−1μ。证明的关键是将 Σ \Sigma Σ分解成 C C ′ CC' CC′。
-
结论二:对于对称阵 A A A, r a n k ( A ) = r {\rm rank}(A)=r rank(A)=r,则
( X − μ ) ′ A ( X − μ ) ∼ χ 2 ( r ) ⇔ Σ A Σ A Σ = Σ A Σ . (X-\mu)'A(X-\mu)\sim \chi^2(r)\Leftrightarrow \Sigma A\Sigma A\Sigma=\Sigma A\Sigma. (X−μ)′A(X−μ)∼χ2(r)⇔ΣAΣAΣ=ΣAΣ.
证明的关键是将 Σ \Sigma Σ分解为 ( Σ 1 / 2 ) 2 (\Sigma^{1/2})^2 (Σ1/2)2,且用到 Y ′ C Y ∼ χ 2 ( p ) ⇔ C 2 = C Y'CY\sim \chi^2(p)\Leftrightarrow C^2=C Y′CY∼χ2(p)⇔C2=C结论。 -
结论三:对于对称阵 A , B A,B A,B,有
( X − μ ) ′ A ( X − μ ) 与 ( X − μ ) ′ B ( X − μ ) 独 立 ⇔ Σ A Σ B Σ = O . (X-\mu)'A(X-\mu)与(X-\mu)'B(X-\mu)独立\Leftrightarrow \Sigma A\Sigma B\Sigma =O. (X−μ)′A(X−μ)与(X−μ)′B(X−μ)独立⇔ΣAΣBΣ=O.
2.威沙特(Wishart) W W W分布
在一元统计中, χ 2 \chi^2 χ2分布用来刻画正态样本的样本方差分布,推广到多元统计,对应的样本离差阵的分布,也应该由一种分布来刻画,这种分布就是Wishart分布。其定义如下:
Wishart分布:设 X ( α ) ∼ N p ( 0 , Σ ) ( α = 1 , ⋯ , n ) X_{(\alpha)}\sim N_p(0,\Sigma)(\alpha=1,\cdots,n) X(α)∼Np(0,Σ)(α=1,⋯,n)相互独立,记 X = ( X ( 1 ) , ⋯ , X ( n ) ) ′ X=(X_{(1)},\cdots,X_{(n)})' X=(X(1),⋯,X(n))′为 n × p n\times p n×p矩阵,则称随机阵 W = ∑ α = 1 n X ( α ) X ( α ) ′ = X ′ X W=\sum\limits_{\alpha=1}^n X_{(\alpha)}X_{(\alpha)}'=X'X W=α=1∑nX(α)X(α)′=X′X的分布为Wishart分布,记作 W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) W∼Wp(n,Σ)。
非中心Wishart分布:设 X ( α ) ∼ N p ( μ , Σ ) ( α = 1 , ⋯ , n ) X_{(\alpha)}\sim N_p(\mu,\Sigma)(\alpha=1,\cdots,n) X(α)∼Np(μ,Σ)(α=1,⋯,n)相互独立,记
M = [ μ 1 ⋯ μ p ⋮ ⋮ μ 1 ⋯ μ p ] = 1 n μ ′ , Δ = M ′ M = m μ μ ′ , M=\begin{bmatrix} \mu_1 & \cdots & \mu_p \\ \vdots & & \vdots \\ \mu_1 & \cdots & \mu_p \end{bmatrix}=\boldsymbol 1_n\mu',\quad \Delta=M'M=m\mu \mu', M=⎣⎢⎡μ1⋮μ1⋯⋯μp⋮μp⎦⎥⎤=1nμ′,Δ=M′M=mμμ′,
则称 W = X ′ X W=X'X W=X′X服从非中心参数为 Δ \Delta Δ的非中心Wishart分布,记作 W ∼ W p ( n , Σ , Δ ) W\sim W_p(n,\Sigma,\Delta) W∼Wp(n,Σ,Δ)。更一般地如果 X ( α ) ∼ N p ( μ p , Σ ) X_{(\alpha)}\sim N_p(\mu_p,\Sigma) X(α)∼Np(μp,Σ)相互独立,则
M = [ μ 11 ⋯ μ 1 p ⋮ ⋮ μ n 1 ⋯ μ n p ] , Δ = M ′ M = ∑ α = 1 n μ α μ α ′ . M=\begin{bmatrix} \mu_{11} & \cdots & \mu_{1p} \\ \vdots & & \vdots \\ \mu_{n1} & \cdots & \mu_{np} \end{bmatrix},\quad \Delta =M'M=\sum_{\alpha=1}^n \mu_{\alpha}\mu_\alpha'. M=⎣⎢⎡μ11⋮μn1⋯⋯μ1p⋮μnp⎦⎥⎤,Δ=M′M=α=1∑nμαμα′.
称 W = X ′ X W=X'X W=X′X服从非中心参数为 Δ \Delta Δ的非中心Wishart分布,记作 W ∼ W p ( n , Σ , Δ ) W\sim W_p(n,\Sigma,\Delta) W∼Wp(n,Σ,Δ)。
可以看到,区分Wishart分布是中心化的还是非中心的,以及非中心参数的情况如何,关键在于正态总体 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)是不是零均值的,均值是否随样本变化。当然,离差阵作为自协方差矩阵的估计,抽取的样本肯定要是同方差的。
关于Wishart分布,类似数理统计中的三大分布一样,有一些结论是不需证明,但需要记忆的。
-
设 X ( α ) ∼ N p ( μ , Σ ) X_{(\alpha)}\sim N_p(\mu,\Sigma) X(α)∼Np(μ,Σ),则样本离差阵服从自由度为 n − 1 n-1 n−1的Wishart分布,即
A = ∑ α = 1 n ( X ( α ) − X ˉ ) ( X ( α ) − X ˉ ) ′ ∼ W p ( n − 1 , Σ ) . A=\sum_{\alpha=1}^{n}(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)'\sim W_p(n-1,\Sigma). A=α=1∑n(X(α)−Xˉ)(X(α)−Xˉ)′∼Wp(n−1,Σ).
这是因为我们已经证明了 W = d ∑ t = 1 n − 1 Z t Z t ′ W\stackrel {\rm d}=\sum_{t=1}^{n-1}Z_tZ_t' W=d∑t=1n−1ZtZt′,这里 Z t Z_t Zt独立同分布于 N p ( 0 , Σ ) N_p(0,\Sigma) Np(0,Σ)。 -
Wishart分布关于自由度 n n n具有可加性,这与 χ 2 \chi^2 χ2分布类似,即 W i ∼ W p ( n i , Σ ) W_i\sim W_p(n_i,\Sigma) Wi∼Wp(ni,Σ)相互独立,则
∑ i = 1 k W i ∼ W p ( ∑ i = 1 k n i , Σ ) . \sum_{i=1}^k W_i\sim W_p(\sum_{i=1}^k n_i,\Sigma). i=1∑kWi∼Wp(i=1∑kni,Σ). -
Wishart分布服从可线性变换性,设 W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) W∼Wp(n,Σ), C C C是 m × p m\times p m×p常数阵,则
C W C ′ ∼ W m ( n , C Σ C ′ ) . CWC' \sim W_m(n\,,C\Sigma C'). CWC′∼Wm(n,CΣC′).
可以从定义式入手, W = ∑ i = 1 n Z α Z α ′ W=\sum_{i=1}^n Z_\alpha Z_\alpha' W=∑i=1nZαZα′,令 Y α = C Z α ∼ N m ( 0 , C Σ C ′ ) Y_{\alpha}=CZ_{\alpha}\sim N_m(0,C\Sigma C') Yα=CZα∼Nm(0,CΣC′),计算 C W C ′ CWC' CWC′就得结论。特别地,取 C = a I p C=\sqrt aI_p C=aIp时,得到 a W ∼ W p ( n , a Σ ) aW\sim W_p(n,a\Sigma) aW∼Wp(n,aΣ);
特别地,取 C ′ = l = ( l 1 , ⋯ , l p ) ′ C'=l=(l_1,\cdots,l_p)' C′=l=(l1,⋯,lp)′时,得到 l ′ W l = ξ ∼ W ( n , l ′ Σ l ) l'Wl=\xi\sim W(n,l'\Sigma l) l′Wl=ξ∼W(n,l′Σl)。设 σ 2 = l ′ Σ l \sigma^2=l'\Sigma l σ2=l′Σl,则将Wishart分布与 χ 2 \chi^2 χ2分布联系起来,有 ξ ∼ σ 2 χ 2 ( n ) \xi\sim \sigma^2\chi^2(n) ξ∼σ2χ2(n)。这里建立了Wishart分布与一元统计的桥梁。
-
分块Wishart分布:将 W W W类似 X , Σ X,\Sigma X,Σ一样分解,则 W 11 ∼ W r ( n , Σ 11 ) , W 22 ∼ W p − r ( n , Σ 22 ) W_{11}\sim W_r(n,\Sigma_{11}),W_{22}\sim W_{p-r}(n,\Sigma_{22}) W11∼Wr(n,Σ11),W22∼Wp−r(n,Σ22),且当 Σ 12 = O \Sigma_{12}=O Σ12=O时 W 11 W_{11} W11与 W 22 W_{22} W22相互独立。
-
条件Wishart分布: W W W也可以类似寻找 W 11 W_{11} W11对 W 22 W_{22} W22的回归,记 W 11 ⋅ 2 = W 11 − W 12 W 22 − 1 W 21 W_{11\cdot2}=W_{11}-W_{12}W_{22}^{-1}W_{21} W11⋅2=W11−W12W22−1W21,则
W 11 ⋅ 2 ∼ W p ( r , Σ 11 ⋅ 2 ) , W_{11\cdot 2}\sim W_p(r,\Sigma_{11\cdot2}), W11⋅2∼Wp(r,Σ11⋅2),
且 W 11 ⋅ 2 W_{11\cdot 2} W11⋅2与 W 22 W_{22} W22相互独立,这点与 X ( 1 ) X_{(1)} X(1)对 X ( 2 ) X_{(2)} X(2)的回归类似。 -
Wishart分布的期望: W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) W∼Wp(n,Σ),则 E W = n Σ {\rm E}W=n\Sigma EW=nΣ。在 χ 2 \chi^2 χ2的情形,如果 ξ ∼ σ 2 χ 2 ( n ) \xi \sim \sigma^2\chi^2(n) ξ∼σ2χ2(n),则 E W = σ 2 n {\rm E}W=\sigma^2n EW=σ2n。
-
与一元统计中二次型类似的结论:设 X ∼ N n × p ( M , I n ⊗ Σ ) X\sim N_{n\times p}(M,I_n\otimes \Sigma) X∼Nn×p(M,In⊗Σ), A , B A,B A,B都是 n n n阶幂等矩阵,设 Δ = M ′ A M \Delta =M'AM Δ=M′AM,则
X ′ A X ∼ W p ( r , Σ , Δ ) ⇔ A 2 = A , 且 r a n k ( A ) = r ; X ′ A X 与 X ′ B X 相 互 独 立 ⇔ A B = O . X'AX\sim W_p(r, \Sigma, \Delta)\Leftrightarrow A^2=A,且{\rm rank}(A)=r;\\ X'AX与X'BX相互独立\Leftrightarrow AB=O. X′AX∼Wp(r,Σ,Δ)⇔A2=A,且rank(A)=r;X′AX与X′BX相互独立⇔AB=O.
3.霍特林(Hotelling) T 2 T^2 T2分布
Hotelling T 2 T^2 T2分布是一元统计中 t t t分布的推广,在一元统计中定义的 t t t变量为 X / ξ / n X/\sqrt{\xi /n} X/ξ/n,其中 X , ξ X,\xi X,ξ相互独立,且 X X X是标准正态变量, ξ \xi ξ服从自由度为 n n n的卡方分布。现将 t 2 t^2 t2推广为 T 2 T^2 T2,就得到Hotelling T 2 T^2 T2分布的定义。
Hotelling T 2 T^2 T2分布:设 X ∼ N p ( 0 , Σ ) X\sim N_p(0,\Sigma) X∼Np(0,Σ),随机阵 W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) W∼Wp(n,Σ), Σ > 0 , n ≥ p \Sigma>0,n\ge p Σ>0,n≥p,且 X , W X,W X,W相互独立,则Hotelling T 2 T^2 T2统计量定义为 T 2 = X ′ ( W − 1 n ) X = n X ′ W − 1 X T^2=X'(\frac {W^{-1}}n)X=nX'W^{-1}X T2=X′(nW−1)X=nX′W−1X,记作 T 2 ∼ T 2 ( p , n ) T^2\sim T^2(p,n) T2∼T2(p,n)。
非中心Hotelling T 2 T^2 T2分布:设 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) X∼Np(μ,Σ),则存在非中心Hotelling T 2 T^2 T2分布 T 2 = n X ′ W − 1 X T^2=nX'W^{-1}X T2=nX′W−1X,记作 T 2 ∼ T 2 ( p , n , μ ) T^2\sim T^2(p,n,\mu) T2∼T2(p,n,μ)。
注意到,定义Hotelling T 2 T^2 T2统计量时,虽然为正态向量与Wishart向量都指定了自协方差矩阵 Σ \Sigma Σ,但在最后 T 2 T^2 T2分布的表达式中却没有出现,这说明Hotelling T 2 T^2 T2统计量是与 Σ \Sigma Σ无关的。同时,非中心Hotelling T 2 T^2 T2分布的非中心参数也只是 μ \mu μ,而不是非中心Wishart分布中的 n μ μ ′ n\mu\mu' nμμ′。
现在证明Hotelling
T
2
T^2
T2统计量的分布与
Σ
\Sigma
Σ无关,只要证明对任何
T
2
=
n
X
′
W
−
1
X
T^2=nX' W^{-1}X
T2=nX′W−1X,都与标准正态随机向量
U
∼
N
p
(
0
,
I
p
)
U\sim N_p(0,I_p)
U∼Np(0,Ip)与对应的Wishart统计量
W
0
∼
W
p
(
n
,
I
n
)
W_0\sim W_p(n,I_n)
W0∼Wp(n,In)构成的
T
0
2
=
n
U
′
W
0
−
1
U
T_0^2=nU'W_0^{-1}U
T02=nU′W0−1U同分布即可。由于
X
∼
N
p
(
0
,
Σ
)
,
W
∼
W
p
(
n
,
Σ
)
X\sim N_p(0,\Sigma),W\sim W_p(n,\Sigma)
X∼Np(0,Σ),W∼Wp(n,Σ),所以
U
=
d
Σ
−
1
/
2
X
,
W
0
=
d
Σ
−
1
/
2
W
Σ
−
1
/
2
.
n
U
′
W
0
−
1
/
2
U
=
d
n
X
′
Σ
−
1
/
2
Σ
1
/
2
W
−
1
Σ
1
/
2
Σ
1
/
2
X
=
n
X
′
W
−
1
X
.
U\stackrel {\rm d}= \Sigma^{-1/2}X,\quad W_0\stackrel {\rm d}= \Sigma^{-1/2}W\Sigma^{-1/2}.\\ nU'W_0^{-1/2} U\stackrel {\rm d}= nX'\Sigma^{-1/2}\Sigma^{1/2}W^{-1}\Sigma^{1/2}\Sigma^{1/2}X=nX'W^{-1}X.
U=dΣ−1/2X,W0=dΣ−1/2WΣ−1/2.nU′W0−1/2U=dnX′Σ−1/2Σ1/2W−1Σ1/2Σ1/2X=nX′W−1X.
除此之外,Hotelling
T
2
T^2
T2分布还有以下不需证明,但需要记忆的性质。
-
设 X ( α ) X_{(\alpha)} X(α)是来自 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的随机样本, X ˉ , A \bar X,A Xˉ,A分别是正态总体 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的样本均值向量和样本离差阵,则建立如下统计量可以在 Σ \Sigma Σ未知时用来对 μ \mu μ进行参数检验
T 2 = [ n ( X ˉ − μ ) ] ′ ( A n − 1 ) [ n ( X ˉ − μ ) ] = n ( n − 1 ) ( X ˉ − μ ) ′ A ( X ˉ − μ ) ∼ T 2 ( p , n − 1 ) . T^2=[\sqrt n(\bar X-\mu)]'(\frac{A}{n-1})[\sqrt n(\bar X-\mu)]=n(n-1)(\bar X-\mu)'A(\bar X-\mu)\sim T^2(p,n-1). T2=[n(Xˉ−μ)]′(n−1A)[n(Xˉ−μ)]=n(n−1)(Xˉ−μ)′A(Xˉ−μ)∼T2(p,n−1).
这一点与一元统计中 t t t分布的应用是类似的。 -
T 2 T^2 T2分布与 F F F分布之间存在关系:若 T 2 ∼ T 2 ( p , n ) T^2\sim T^2(p,n) T2∼T2(p,n),则
n − p + 1 n p T 2 ∼ F ( p , n − p + 1 ) . \frac{n-p+1}{np}T^2\sim F(p,n-p+1). npn−p+1T2∼F(p,n−p+1).
这就建立了 T 2 T^2 T2分布与一元三大分布的联系。另外,令 δ = n μ ′ Σ − 1 μ \delta=n\mu'\Sigma^{-1}\mu δ=nμ′Σ−1μ,还有
n − p ( n − 1 ) p T 2 ∼ F ( p , n − p , δ ) . \frac{n-p}{(n-1)p}T^2\sim F(p,n-p,\delta). (n−1)pn−pT2∼F(p,n−p,δ). -
T 2 T^2 T2统计量对非退化变换不变,即如果存在一个常数阵 C p × p C_{p\times p} Cp×p和 p p p维向量 d d d, Y ( α ) = C X ( α ) + d Y_{(\alpha)}=CX_{(\alpha)}+d Y(α)=CX(α)+d,则 T y 2 = n ( n − 1 ) [ Y ˉ − ( C μ + d ) ] ′ A y − 1 [ Y ˉ − ( C μ + d ) ] = T x 2 T_y^2=n(n-1)[\bar Y-(C\mu+d)]'A_y^{-1}[\bar Y-(C\mu+d)]=T_x^2 Ty2=n(n−1)[Yˉ−(Cμ+d)]′Ay−1[Yˉ−(Cμ+d)]=Tx2,只要注意到 Y = X C ′ + 1 p d ′ Y=XC'+\boldsymbol 1_pd' Y=XC′+1pd′。
4.威尔克斯(Wilks) Λ \Lambda Λ分布
显然,Wilks分布应该对应一元分布中的 F F F分布,而 F F F分布主要用于检验两个正态总体的方差比。在多元统计中,方差变成了自协方差矩阵,不能直接作比,除非我们用一个数值来描述总体的离散程度。为此,我们定义广义方差的概念。
对于正态总体 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) X∼Np(μ,Σ),协方差阵的行列式 ∣ Σ ∣ |\Sigma| ∣Σ∣称为总体 X X X的广义方差;如果从总体中抽取样本 X ( α ) ( α = 1 , ⋯ , n ) X_{(\alpha)}(\alpha=1,\cdots,n) X(α)(α=1,⋯,n),则样本广义方差定义为 det ( A n ) \det(\frac An) det(nA)或 det ( A n − 1 ) \det(\frac A{n-1}) det(n−1A)。
在有了样本广义方差的定义后,我们可以介绍Wilks分布的定义。
Wilks分布:设 A 1 ∼ W p ( n 1 , Σ ) , A 2 ∼ W p ( n 2 , Σ ) A_1\sim W_p(n_1,\Sigma),A_2\sim W_p(n_2,\Sigma) A1∼Wp(n1,Σ),A2∼Wp(n2,Σ),则定义Wilks统计量为
Λ = ∣ A 1 ∣ ∣ A 1 + A 2 ∣ . \Lambda=\frac{|A_1|}{|A_1+A_2|}. Λ=∣A1+A2∣∣A1∣.
记作 Λ ∼ Λ ( p , n 1 , n 2 ) \Lambda \sim \Lambda(p,n_1,n_2) Λ∼Λ(p,n1,n2)。
如果 p = 1 p=1 p=1,则上下两个Wishart分布将退化成 χ 2 \chi^2 χ2分布,而 χ 2 \chi^2 χ2分布又是同尺度参数的 Γ \Gamma Γ分布,故 Λ ( 1 , n 1 , n 2 ) = β ( n 1 2 , n 2 2 ) \Lambda(1,n_1,n_2)=\beta(\frac {n_1}2,\frac{n_2}2) Λ(1,n1,n2)=β(2n1,2n2)。
以下是一些 Λ \Lambda Λ分布与 T 2 T^2 T2分布的联系,由于 T 2 T^2 T2分布可以直接转化成 F F F分布,所以 Λ \Lambda Λ分布也可以联系上 F F F分布。
-
n 2 = 1 n_2=1 n2=1时,设 n = n 1 > p n=n_1>p n=n1>p,则
Λ ( p , n , 1 ) = d 1 1 + 1 n T 2 ( p , n ) , T 2 ( p , n ) = d n ⋅ 1 − Λ ( p , n , 1 ) Λ ( p , n , 1 ) . n − p + 1 n p T 2 ( p , n ) = d n − p + 1 p 1 − Λ ( p , n , 1 ) Λ ( p , n , 1 ) = d F ( p , n − p + 1 ) . \Lambda(p,n,1)\stackrel {\rm d}=\frac{1}{1+\frac 1nT^2(p,n)},\quad T^2(p,n)\stackrel {\rm d}=n\cdot\frac{1-\Lambda(p,n,1)}{\Lambda(p,n,1)}.\\ \frac{n-p+1}{np}T^2(p,n)\stackrel {\rm d}=\frac{n-p+1}{p}\frac{1-\Lambda(p,n,1)}{\Lambda(p,n,1)}\stackrel {\rm d}=F(p,n-p+1). Λ(p,n,1)=d1+n1T2(p,n)1,T2(p,n)=dn⋅Λ(p,n,1)1−Λ(p,n,1).npn−p+1T2(p,n)=dpn−p+1Λ(p,n,1)1−Λ(p,n,1)=dF(p,n−p+1). -
n 2 = 2 n_2=2 n2=2时,设 n = n 1 > p n=n_1>p n=n1>p,则
n − p + 1 n 1 − Λ ( p , n , 2 ) Λ ( p , n , 2 ) = d F ( 2 p , 2 ( n − p + 1 ) ) . \frac{n-p+1}{n}\frac{1-\sqrt{\Lambda(p,n,2)}}{\sqrt{\Lambda(p,n,2)}}\stackrel {\rm d}= F(2p,2(n-p+1)). nn−p+1Λ(p,n,2)1−Λ(p,n,2)=dF(2p,2(n−p+1)). -
p = 1 p=1 p=1时,
n 1 n 2 1 − Λ ( 1 , n 1 , n 2 ) Λ ( 1 , n 1 , n 2 ) = d F ( n 2 , n 1 ) . \frac{n_1}{n_2}\frac{1-\Lambda(1,n_1,n_2)}{\Lambda(1,n_1,n_2)}\stackrel {\rm d}=F(n_2,n_1). n2n1Λ(1,n1,n2)1−Λ(1,n1,n2)=dF(n2,n1). -
p = 2 p=2 p=2时,
n 1 − 1 n 2 1 − Λ ( 2 , n 1 , n 2 ) Λ ( 2 , n 1 , n 2 ) = d F ( 2 n 2 , 2 ( n 1 − 1 ) ) . \frac{n_1-1}{n_2}\frac{1-\sqrt{\Lambda(2,n_1,n_2)}}{\sqrt{\Lambda(2,n_1,n_2)}}\stackrel {\rm d}=F(2n_2,2(n_1-1)). n2n1−1Λ(2,n1,n2)1−Λ(2,n1,n2)=dF(2n2,2(n1−1)). -
n 2 > 2 , p > 2 n_2>2,p>2 n2>2,p>2时,可以用 χ 2 \chi^2 χ2统计量近似,即对于 Λ ( p , n 1 , n 2 ) \Lambda(p,n_1,n_2) Λ(p,n1,n2),当 n → ∞ n\to \infty n→∞时有
− r ln Λ ∼ χ 2 ( p n 2 ) , r = n 1 − 1 2 ( p − n 2 + 1 ) . -r\ln \Lambda\sim \chi^2(pn_2),\quad r=n_1-\frac12(p-n_2+1). −rlnΛ∼χ2(pn2),r=n1−21(p−n2+1).
除此之外,还有两个结论:
-
若 Λ ∼ Λ ( p , n 1 , n 2 ) \Lambda\sim\Lambda(p,n_1,n_2) Λ∼Λ(p,n1,n2),则存在 B k ∼ β ( n 1 − p + k 2 , n 2 2 ) ( k = 1 , ⋯ , p ) B_k\sim \beta(\frac{n_1-p+k}{2},\frac{n_2}{2})(k=1,\cdots,p) Bk∼β(2n1−p+k,2n2)(k=1,⋯,p)相互独立,使得
Λ = d B 1 B 2 ⋯ B k . \Lambda\stackrel {\rm d}=B_1B_2\cdots B_k. Λ=dB1B2⋯Bk. -
若 n 2 < p n_2<p n2<p,则
Λ ( p , n 1 , n 2 ) = d Λ ( n 2 , p , n 1 + n 2 − p ) . \Lambda(p,n_1,n_2)\stackrel {\rm d}=\Lambda(n_2,p,n_1+n_2-p). Λ(p,n1,n2)=dΛ(n2,p,n1+n2−p).
本文中提到许多结论,大多在假设检验中发挥作用,尽管不需要证明,但还是需要牢记。
回顾总结
-
非中心三大分布:
分布 定义 非中心参数 非中心 χ 2 \chi^2 χ2分布 对于 n n n个独立的正态随机变量 X i ∼ N ( μ i , σ 2 ) X_i\sim N(\mu_i,\sigma^2) Xi∼N(μi,σ2),有 χ 2 = ∑ i = 1 n X i 2 ∼ χ 2 ( n , δ ) \chi^2=\sum\limits_{i=1}^n X_i^2\sim \chi^2(n,\delta) χ2=i=1∑nXi2∼χ2(n,δ)。 δ = ∑ i = 1 n μ i 2 \delta=\sum\limits_{i=1}^n \mu_i^2 δ=i=1∑nμi2 非中心 t t t分布 X ∼ N ( δ , 1 ) , ξ ∼ χ 2 ( n ) X\sim N(\delta,1),\xi\sim \chi^2(n) X∼N(δ,1),ξ∼χ2(n)相互独立,有 t = X ξ / n ∼ t ( n , δ ) t=\frac{X}{\sqrt{\xi/n}}\sim t(n,\delta) t=ξ/nX∼t(n,δ)。 δ \delta δ 非中心 F F F分布 X ∼ χ 2 ( n 1 , δ ) , Y ∼ χ 2 ( n 2 ) X\sim \chi^2(n_1,\delta),Y\sim \chi^2(n_2) X∼χ2(n1,δ),Y∼χ2(n2)相互独立,有 F = X / n 1 Y / n 2 ∼ F ( n 1 , n 2 , δ ) F=\frac{X/n_1}{Y/n_2}\sim F(n_1,n_2,\delta) F=Y/n2X/n1∼F(n1,n2,δ)。 δ \delta δ -
假设 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) X∼Np(μ,Σ),则 μ = 0 \mu=0 μ=0时 X ′ A X ∼ σ 2 χ 2 ( r ) X'AX\sim \sigma^2\chi^2(r) X′AX∼σ2χ2(r)等价于 A A A是秩为 r r r的幂等矩阵; μ ≠ 0 \mu\ne 0 μ=0时, X ′ A X ∼ σ 2 χ 2 ( r , δ ) X'AX\sim \sigma^2\chi^2(r,\delta) X′AX∼σ2χ2(r,δ)等价于 A A A是秩为 r r r的幂等矩阵,这里 δ = μ ′ A μ \delta=\mu'A\mu δ=μ′Aμ。
-
假设 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) X∼Np(μ,Σ),则 X ′ Σ − 1 X ∼ χ 2 ( p , δ ) X'\Sigma^{-1}X\sim \chi^2(p,\delta) X′Σ−1X∼χ2(p,δ),这里 δ = μ ′ Σ − 1 μ \delta=\mu'\Sigma^{-1}\mu δ=μ′Σ−1μ。
-
如果 A n × n A_{n\times n} An×n是对称阵, B m × n B_{m\times n} Bm×n,则 X ′ A X X'AX X′AX与 B X BX BX独立 ⇔ B A = O \Leftrightarrow BA=O ⇔BA=O。
-
对于对称阵 A , B A,B A,B与 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) X∼Np(μ,Σ),有
( r a n k ( A ) = r ) ( X − μ ) ′ A ( X − μ ) ∼ χ 2 ( r ) ⇔ Σ A Σ A Σ = Σ A Σ , ( X − μ ) ′ A ( X − μ ) 和 ( X − μ ) ′ B ( X − μ ) 独 立 ⇔ A B = O . ({\rm rank}(A)=r)\quad (X-\mu)'A(X-\mu)\sim \chi^2(r)\Leftrightarrow \Sigma A\Sigma A\Sigma =\Sigma A\Sigma,\\ (X-\mu)'A(X-\mu)和(X-\mu)'B(X-\mu)独立\Leftrightarrow AB=O. (rank(A)=r)(X−μ)′A(X−μ)∼χ2(r)⇔ΣAΣAΣ=ΣAΣ,(X−μ)′A(X−μ)和(X−μ)′B(X−μ)独立⇔AB=O. -
多元三大分布:
分布 类型 表达式 Wishart W W W分布 随机矩阵的分布。 X ( α ) ∼ N p ( 0 , Σ ) , α = 1 , ⋯ , n X_{(\alpha)}\sim N_p(0,\Sigma),\alpha=1,\cdots,n X(α)∼Np(0,Σ),α=1,⋯,n. W = ∑ α = 1 n X ( α ) X ( α ) ′ ∼ W p ( n , Σ ) W=\sum\limits_{\alpha=1}^n X_{(\alpha)}X_{(\alpha)}'\sim W_p(n,\Sigma) W=α=1∑nX(α)X(α)′∼Wp(n,Σ) Hotelling T 2 T^2 T2分布 一元分布。 X ∼ N p ( 0 , Σ ) , W ∼ W p ( n , Σ ) X\sim N_p(0,\Sigma),W\sim W_p(n,\Sigma) X∼Np(0,Σ),W∼Wp(n,Σ)。 T 2 = n X ′ W − 1 X ∼ T 2 ( p , n ) T^2=nX'W^{-1}X\sim T^2(p,n) T2=nX′W−1X∼T2(p,n) Wilks Λ \Lambda Λ分布 一元分布。 A 1 ∼ W 1 ( n 1 , Σ ) , A 2 ∼ W ( n 2 , Σ ) A_1\sim W_1(n_1,\Sigma),A_2\sim W(n_2,\Sigma) A1∼W1(n1,Σ),A2∼W(n2,Σ)。 $\Lambda=\dfrac{ -
Wishart分布的相关性质
- 正态总体样本中, A ∼ W p ( n − 1 , Σ ) A\sim W_p(n-1,\Sigma) A∼Wp(n−1,Σ)。
- 关于 n n n服从可加性。
- 可线性变换, W ∼ W p ( n , Σ ) W\sim W_p(n,\Sigma) W∼Wp(n,Σ),则 C W C ′ ∼ W p ( n , C Σ C ′ ) CWC'\sim W_p(n,C\Sigma C') CWC′∼Wp(n,CΣC′)。特别地有 a W ∼ W p ( n , a Σ ) aW\sim W_p(n,a\Sigma) aW∼Wp(n,aΣ), l ′ W l ∼ W p ( n , l ′ Σ l ) ∼ l ′ Σ l χ 2 ( n ) l'W l\sim W_p(n,l'\Sigma l)\sim l'\Sigma l\chi^2(n) l′Wl∼Wp(n,l′Σl)∼l′Σlχ2(n)。
- E W = n Σ {\rm E}W=n\Sigma EW=nΣ。
-
Hotelling T 2 T^2 T2分布的相关性质
-
Hotelling T 2 T^2 T2分布与定义中的 Σ \Sigma Σ无关。
-
n ( n − 1 ) X ′ A − 1 X ∼ T 2 ( p , n − 1 ) n(n-1)X'A^{-1}X\sim T^2(p,n-1) n(n−1)X′A−1X∼T2(p,n−1)。
-
T 2 T^2 T2统计量在非退化变换下不变。
-
T 2 T^2 T2分布与 F F F分布存在联系,有
n − p + 1 n p T 2 ( p , n ) = d F ( p , n − p + 1 ) . \frac{n-p+1}{np}T^2(p,n)\stackrel {\rm d}=F(p,n-p+1). npn−p+1T2(p,n)=dF(p,n−p+1).
-
-
Wilks Λ \Lambda Λ分布的相关性质
-
Λ ( p , n 1 , n 2 ) \Lambda(p,n_1,n_2) Λ(p,n1,n2)可以看成 p p p个独立的 B k = β ( n 1 − p + k 2 , n 2 2 ) B_k=\beta(\frac{n_1-p+k}{2},\frac{n_2}2) Bk=β(2n1−p+k,2n2)的乘积。
-
如果 n 2 < p n_2<p n2<p,则 1 / Λ ( p , n 1 , n 2 ) = Λ ( n 2 , p , n 1 + n 2 − p ) 1/\Lambda(p,n_1,n_2)=\Lambda(n_2,p,n_1+n_2-p) 1/Λ(p,n1,n2)=Λ(n2,p,n1+n2−p)。
-
Λ \Lambda Λ可以转化为 T 2 T^2 T2分布,当 n 2 , p > 2 n_2,p>2 n2,p>2时,随着 n 1 n_1 n1的增加,有
− r ln Λ = χ 2 ( p n 2 ) , r = n 1 − 1 2 ( p − n 2 + 1 ) . -r\ln \Lambda=\chi^2(pn_2),\quad r=n_1-\frac12(p-n_2+1). −rlnΛ=χ2(pn2),r=n1−21(p−n2+1).
特别当 n 2 = 1 n_2=1 n2=1时,有
Λ ( p , n , 1 ) = d 1 1 + 1 n T 2 ( p , n ) , \Lambda(p,n,1)\stackrel {\rm d}=\frac{1}{1+\frac1nT^2(p,n)}, Λ(p,n,1)=d1+n1T2(p,n)1,
当 p = 1 p=1 p=1时,有
n 1 n 2 1 − Λ ( 1 , n 1 , n 2 ) Λ ( 1 , n 1 , n 2 ) = d F ( n 2 , n 1 ) . \frac{n_1}{n_2}\frac{1-\Lambda(1,n_1,n_2)}{\Lambda(1,n_1,n_2)}\stackrel {\rm d}=F(n_2,n_1). n2n1Λ(1,n1,n2)1−Λ(1,n1,n2)=dF(n2,n1).
-