第二章 抽样分布及若干预备知识(1)
1.正态随机变量的线性组合
正态随机变量的线性组合:设随机变量 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn相互独立,且 X k ∼ N ( a k , σ k 2 ) X_k\sim N(a_k, \sigma_k^2) Xk∼N(ak,σk2),有常数 c 1 , ⋯ , c n c_1,\cdots,c_n c1,⋯,cn,记 T = ∑ k = 1 n c k X k T=\sum_{k=1}^n c_kX_k T=∑k=1nckXk,则 T ∼ N ( μ , τ 2 ) , μ = ∑ k = 1 n c k a k , τ 2 = ∑ i = 1 n c k 2 σ k 2 T\sim N(\mu, \tau^2),\mu=\sum_{k=1}^n c_ka_k,\tau^2=\sum_{i=1}^n c_k^2\sigma_k^2 T∼N(μ,τ2),μ=∑k=1nckak,τ2=∑i=1nck2σk2。即——独立正态变量的线性组合依然是正态变量。
- 正态分布的特征函数: X ∼ N ( a , σ 2 ) X\sim N(a,\sigma^2) X∼N(a,σ2),其特征函数为 f X ( t ) = e i a t − 1 2 σ 2 t 2 f_X(t)=e^{iat-\frac12\sigma^2t^2} fX(t)=eiat−21σ2t2。
- 特征函数的计算性质:如果 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn相互独立,且特征函数分别为 f 1 ( t ) , ⋯ , f n ( t ) f_1(t), \cdots, f_n(t) f1(t),⋯,fn(t),则 T = ∑ k = 1 n c k X k T=\sum_{k=1}^nc_kX_k T=∑k=1nckXk的特征函数为 f T ( t ) = f 1 ( c 1 t ) ⋯ f n ( c n t ) f_T(t)=f_1(c_1t)\cdots f_n(c_nt) fT(t)=f1(c1t)⋯fn(cnt)。
由以上结论可以很直观地得到正态总体样本均值的分布,因为正态总体里的每一个样本都独立同分布于总体,所以对于正态总体 N ( a , σ 2 ) N(a,\sigma^2) N(a,σ2),其样本均值 X ˉ = 1 n ∑ k = 1 n X k ∼ N ( a , σ 2 n ) \bar X=\frac1n\sum_{k=1}^nX_k\sim N(a, \frac{\sigma^2}n) Xˉ=n1∑k=1nXk∼N(a,nσ2)。
正态随机变量的线性变换:现设
X
1
,
⋯
,
X
n
X_1,\cdots, X_n
X1,⋯,Xn为
N
(
a
,
σ
2
)
N(a,\sigma^2)
N(a,σ2)中简单随机抽取的样本,记
X
=
(
X
1
,
⋯
,
X
n
)
′
,
Y
=
(
Y
1
,
⋯
,
Y
n
)
′
,
A
=
(
a
i
j
)
n
×
n
\boldsymbol X=(X_1,\cdots, X_n)',\boldsymbol Y=(Y_1,\cdots, Y_n)',\boldsymbol A=(a_{ij})_{n\times n}
X=(X1,⋯,Xn)′,Y=(Y1,⋯,Yn)′,A=(aij)n×n,满足
Y
=
A
X
\boldsymbol Y=\boldsymbol {AX}
Y=AX,即
(
Y
1
⋮
Y
n
)
=
(
a
11
⋯
a
1
n
⋮
⋮
a
n
1
⋯
a
n
n
)
(
X
1
⋮
X
n
)
\left( \begin{array}{c} Y_1\\ \vdots \\Y_n \end{array} \right)= \left( \begin{array}{c} a_{11}&\cdots&a_{1n}\\ \vdots& &\vdots\\ a_{n1}&\cdots&a_{nn} \end{array} \right) \left( \begin{array}{c} X_1\\ \vdots \\X_n \end{array} \right)
⎝⎜⎛Y1⋮Yn⎠⎟⎞=⎝⎜⎛a11⋮an1⋯⋯a1n⋮ann⎠⎟⎞⎝⎜⎛X1⋮Xn⎠⎟⎞
这里显然
Y
i
=
∑
k
=
1
n
a
i
k
X
k
Y_i=\sum_{k=1}^n a_{ik}X_k
Yi=∑k=1naikXk,所以有
- Y 1 , ⋯ , Y n Y_1,\cdots,Y_n Y1,⋯,Yn也是正态随机变量,且 Y i ∼ N ( a ∑ k = 1 n a i k , σ 2 ∑ k = 1 n a i k 2 ) Y_i\sim N(a\sum_{k=1}^n a_{ik}, \sigma^2\sum_{k=1}^na_{ik}^2) Yi∼N(a∑k=1naik,σ2∑k=1naik2)。
- 如果 A \boldsymbol A A是正交阵(各行各列都是单位向量且两两正交),则各个 Y i Y_i Yi的方差都是 σ 2 \sigma^2 σ2,因为其行向量是单位向量,有 ∑ k = 1 n a i k 2 = 1 \sum_{k=1}^n a_{ik}^2=1 ∑k=1naik2=1。若进一步假定 a = 0 a=0 a=0,则各个 Y i Y_i Yi均服从 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2),这说明正态分布 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2)的随机变量经正交变换后依然独立地服从 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2)(独立性参加下式协方差的值)。
- C o v ( Y i , Y j ) = C o v ( a i 1 X 1 + ⋯ + a i n X n , a j 1 X 1 + ⋯ + a j n X n ) Cov(Y_i,Y_j)=Cov(a_{i1}X_1+\cdots+a_{in}X_n,a_{j1}X_1+\cdots+a_{jn}X_n) Cov(Yi,Yj)=Cov(ai1X1+⋯+ainXn,aj1X1+⋯+ajnXn),由于 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn之间独立,所以 C o v ( Y i , Y j ) = σ 2 ∑ k = 1 n a i k a j k Cov(Y_i,Y_j)=\sigma^2\sum_{k=1}^n a_{ik}a_{jk} Cov(Yi,Yj)=σ2∑k=1naikajk。
2.正态变量样本均值与样本方差
现讨论正态变量样本均值和方差的分布,设 X 1 , ⋯ , X n X_1,\cdots, X_n X1,⋯,Xn简单随机服从 N ( a , σ 2 ) N(a,\sigma^2) N(a,σ2),令 X ˉ = 1 n ∑ k = 1 n X i , S 2 = 1 n − 1 ∑ k = 1 n ( X ˉ − X ) 2 \bar X=\frac1n\sum_{k=1}^n X_i,S^2=\frac1{n-1}\sum_{k=1}^n(\bar X-X)^2 Xˉ=n1∑k=1nXi,S2=n−11∑k=1n(Xˉ−X)2。
首先是 X ˉ \bar X Xˉ,由前面的讨论,显然有 X ˉ ∼ N ( a , σ 2 n ) \bar X\sim N(a, \frac {\sigma^2}n) Xˉ∼N(a,nσ2)。
对于
S
2
S^2
S2,有
(
n
−
1
)
S
2
σ
2
∼
χ
n
−
1
2
\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}
σ2(n−1)S2∼χn−12,这里
χ
n
−
1
2
\chi^2_{n-1}
χn−12是指
n
−
1
n-1
n−1个独立的标准正态随机变量平方和的分布。要证明它,首先需要构造一个正交矩阵
A
\boldsymbol A
A,且
A
=
(
1
n
1
n
⋯
1
n
a
21
a
22
⋯
a
2
n
⋮
⋮
⋮
a
n
1
a
n
2
⋯
a
n
n
)
\boldsymbol A= \left( \begin{array}{c} \frac1{\sqrt n}&\frac1{\sqrt n}&\cdots&\frac1{\sqrt n}\\ a_{21}&a_{22}&\cdots&a_{2n}\\ \vdots&\vdots& &\vdots\\ a_{n1}& a_{n2}&\cdots &a_{nn} \end{array} \right)
A=⎝⎜⎜⎜⎛n1a21⋮an1n1a22⋮an2⋯⋯⋯n1a2n⋮ann⎠⎟⎟⎟⎞
即第一行全都是
1
n
\frac1{\sqrt n}
n1的正交阵,可以如此构造:
A
=
(
1
n
1
n
1
n
⋯
1
n
1
2
⋅
1
−
1
2
⋅
1
0
⋯
0
1
3
⋅
2
1
3
⋅
2
−
2
3
⋅
2
⋯
0
⋮
⋮
⋮
⋮
1
n
(
n
−
1
)
1
n
(
n
−
1
)
1
n
(
n
−
1
)
⋯
−
(
n
−
1
)
n
(
n
−
1
)
)
\boldsymbol A= \left( \begin{array}{c} \frac1{\sqrt n}&\frac1{\sqrt n}&\frac1{\sqrt n}&\cdots&\frac1{\sqrt n}\\ \frac{1}{\sqrt{2 \cdot 1}}&\frac{-1}{\sqrt{2\cdot 1}}&0&\cdots&0\\ \frac{1}{\sqrt{3\cdot2}}&\frac{1}{\sqrt{3\cdot2}}&\frac{-2}{\sqrt {3\cdot2}}&\cdots&0 \\ \vdots&\vdots& \vdots& &\vdots\\ \frac1{\sqrt{n(n-1)}}& \frac{1}{\sqrt{n(n-1)}}&\frac{1}{\sqrt{n(n-1)}}&\cdots &\frac{-(n-1)}{\sqrt{n(n-1)}} \end{array} \right)
A=⎝⎜⎜⎜⎜⎜⎜⎜⎛n12⋅113⋅21⋮n(n−1)1n12⋅1−13⋅21⋮n(n−1)1n103⋅2−2⋮n(n−1)1⋯⋯⋯⋯n100⋮n(n−1)−(n−1)⎠⎟⎟⎟⎟⎟⎟⎟⎞
然后对样本进行正交变换
Y
=
A
X
\boldsymbol{Y=A X}
Y=AX,得到
Y
1
=
1
n
∑
k
=
1
n
X
k
=
n
X
ˉ
Y_1=\frac1{\sqrt n}\sum_{k=1}^n X_k=\sqrt n \bar X
Y1=n1∑k=1nXk=nXˉ。将方差
S
2
S^2
S2进行变形,有
(
n
−
1
)
S
2
=
∑
k
=
1
n
(
X
k
−
X
ˉ
)
2
=
∑
k
=
1
n
X
k
2
+
n
X
ˉ
2
−
2
X
ˉ
∑
k
=
1
n
X
k
∑
k
=
1
n
X
k
2
−
n
X
ˉ
2
\begin{array}{l} (n-1)S^2=&\sum_{k=1}^n(X_k-\bar X)^2=\sum_{k=1}^nX_k^2+n\bar X^2-2\bar X\sum_{k=1}^nX_k\\ &\sum_{k=1}^nX_k^2-n\bar X^2 \end{array}
(n−1)S2=∑k=1n(Xk−Xˉ)2=∑k=1nXk2+nXˉ2−2Xˉ∑k=1nXk∑k=1nXk2−nXˉ2
由于之前证明了
Y
1
=
n
X
ˉ
Y_1=\sqrt n\bar X
Y1=nXˉ,所以
Y
1
2
=
n
X
ˉ
2
Y_1^2=n\bar X^2
Y12=nXˉ2,又因为正交变换不改变向量的长度,所以
∑
k
=
1
n
X
k
2
=
∑
k
=
1
n
Y
k
2
\sum_{k=1}^n X_k^2=\sum_{k=1}^n Y_k^2
∑k=1nXk2=∑k=1nYk2,一代换便得到
(
n
−
1
)
S
2
=
∑
k
=
2
n
Y
i
2
(n-1)S^2=\sum_{k=2}^nY_i^2
(n−1)S2=k=2∑nYi2
由于刚刚证明了正交变换后,各个
Y
i
Y_i
Yi的方差依然是
σ
2
\sigma^2
σ2,如果接下来能够证得
Y
i
Y_i
Yi的均值是0,协方差是0,就可以得到我们需要的结论。
实际上, Y i Y_i Yi的均值是 μ i = a ∑ k = 1 n a i k = a n ∑ k = 1 n 1 n a i k \mu_i=a\sum_{k=1}^na_{ik}=a\sqrt n\sum_{k=1}^n \frac1 {\sqrt n}a_{ik} μi=a∑k=1naik=an∑k=1nn1aik,求和部分内是矩阵 A \boldsymbol A A第一个行向量与第 i i i个行向量的内积,由正交性,就得到了 μ i = 0 \mu_i=0 μi=0。而任意两个 Y i , Y j Y_i,Y_j Yi,Yj间的协方差是 C o v ( Y i , Y j ) = σ 2 ∑ k = 1 n a i k a j k Cov(Y_i,Y_j)=\sigma^2\sum_{k=1}^n a_{ik}a_{jk} Cov(Yi,Yj)=σ2∑k=1naikajk,恰好是第 i i i个行向量与第 j j j个行向量的内积,因此协方差也为0。
这样,就说明
Y
2
,
⋯
,
Y
n
Y_2,\cdots,Y_n
Y2,⋯,Yn独立地服从
N
(
0
,
σ
2
)
N(0,\sigma^2)
N(0,σ2),也因此每一个
Y
i
σ
\frac{Y_i}{\sigma}
σYi都独立服从
N
(
0
,
1
)
N(0,1)
N(0,1),所以
(
n
−
1
)
S
2
=
∑
k
=
2
n
Y
i
2
=
σ
2
∑
k
=
2
n
(
Y
i
σ
)
2
,
(
n
−
1
)
S
2
σ
2
∼
χ
n
−
1
2
(n-1)S^2=\sum_{k=2}^nY_i^2=\sigma^2\sum_{k=2}^n(\frac{Y_i}{\sigma})^2,\frac{(n-1)S^2}{\sigma^2}\sim \chi^2_{n-1}
(n−1)S2=k=2∑nYi2=σ2k=2∑n(σYi)2,σ2(n−1)S2∼χn−12
最后,由于
X
ˉ
\bar X
Xˉ只与
Y
1
Y_1
Y1有关,
S
2
S^2
S2只与
Y
2
,
⋯
,
Y
n
Y_2,\cdots,Y_n
Y2,⋯,Yn有关,也就顺便证得了
X
ˉ
\bar X
Xˉ与
S
2
S^2
S2独立。