§ 5.4 三大抽样分布
大家很快会看到, 有很多统计推断是基于正态分布的假设,
以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用,
这是因为这三个统计量不仅有明确背景,
而且其抽样分布的密度函数有显式表达式, 它们被称为统计中的"三大抽样分布".
若设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 和 y 1 , y 2 , ⋯ , y m y_{1}, y_{2}, \cdots, y_{m} y1,y2,⋯,ym
是来自标准正态分布的两个相互独立的样本,
则此三个统计量的构造及其抽样分布如表 5.4.1 所示.
表 5.4.1
三个著名统计量的构造及其抽样分布{width=“582px”}
下面我们将对它们逐个进行推导与说明.
5.4.1 χ 2 \chi^{2} χ2 分布(卡方分布)
定义 5.4.1 设 X 1 , X 2 , ⋯ , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,⋯,Xn 独立同分布于标准正态分布
N ( 0 , 1 ) N(0,1) N(0,1), 则 X 2 = X 1 2 + X 2 2 + ⋯ + X n 2 X^{2}=X_{1}^{2}+X_{2}^{2}+\cdots+X_{n}^{2} X2=X12+X22+⋯+Xn2
的分布称为自由度为 n n n 的 X 2 X^{2} X2 分布, 记为 X 2 ∼ χ 2 ( n ) X^{2} \sim \chi^{2}(n) X2∼χ2(n).
在第三章我们已经指出, 若随机变量 X ∼ N ( 0 , 1 ) X \sim N(0,1) X∼N(0,1), 则
X 2 ∼ G a ( 1 / 2 , 1 / 2 ) X^{2} \sim G a(1 / 2,1 / 2) X2∼Ga(1/2,1/2), 根据伽马分布的可加性立有
χ 2 ∼ G a ( n / 2 , 1 / 2 ) = χ 2 ( n ) \chi^{2} \sim G a(n / 2,1 / 2)=\chi^{2}(n) χ2∼Ga(n/2,1/2)=χ2(n), 由此可见, χ 2 ( n ) \chi^{2}(n) χ2(n)
分布是伽马分布的特例, 故 X 2 ( n ) X^{2}(n) X2(n) 分布的密度函数为
p ( y ) = ( 1 / 2 ) n 2 Γ ( n / 2 ) y n 2 − 1 e − 1 2 , y > 0. p(y)=\frac{(1 / 2)^{\frac{n}{2}}}{\Gamma(n / 2)} y^{\frac{n}{2}-1} \mathrm{e}^{-\frac{1}{2}}, \quad y>0 . p(y)=Γ(n/2)(1/2)2ny2n−1e−21,y>0.
该密度函数的图像是一个只取非负值的偏态分布, 见图 5.4.1,
其期望等于自由度,方差等于 2 倍自由度, 即
E ( χ 2 ) = n , Var ( χ 2 ) = 2 n E\left(\chi^{2}\right)=n, \operatorname{Var}\left(\chi^{2}\right)=2 n E(χ2)=n,Var(χ2)=2n.{width=“294px”}
图 5.4.1 χ 2 ( n ) \chi^{2}(n) χ2(n) 分布的密度函数
例 5.4.1 设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 是来自正态分布
N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2) 的一个样本, 其中 μ \mu μ 是已知常数,
求统计量
T = ∑ i = 1 n ( x i − μ ) 2 T=\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} T=i=1∑n(xi−μ)2
的分布.
解 令 y i = ( x i − μ ) / σ , i = 1 , 2 , ⋯ , n y_{i}=\left(x_{i}-\mu\right) / \sigma, i=1,2, \cdots, n yi=(xi−μ)/σ,i=1,2,⋯,n, 则
y 1 , y 2 , ⋯ , y n y_{1}, y_{2}, \cdots, y_{n} y1,y2,⋯,yn 是独立同分布随机变量, 其共同分布为
N ( 0 , 1 ) N(0,1) N(0,1),于是由定义 5.4.1 知
T σ 2 = ∑ i = 1 n ( x i − μ σ ) 2 = ∑ i = 1 n y i 2 ∼ χ 2 ( n ) , \frac{T}{\sigma^{2}}=\sum_{i=1}^{n}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}=\sum_{i=1}^{n} y_{i}^{2} \sim \chi^{2}(n), σ2T=i=1∑n(σxi−μ)2=i=1∑nyi2∼χ2(n),
而 T T T 的密度函数为
p ( t ) = 1 ( 2 σ 2 ) n / 2 Γ ( n / 2 ) e − 1 2 σ 2 t n 2 − 1 , t > 0 , p(t)=\frac{1}{\left(2 \sigma^{2}\right)^{n / 2} \Gamma(n / 2)} \mathrm{e}^{-\frac{1}{2 \sigma^{2}} t^{\frac{n}{2}-1}}, \quad t>0, p(t)=(2σ2)n/2Γ(n/2)1e−2σ21t2n−1,t>0,
这就是伽马分布
G a ( n 2 , 1 2 σ 2 ) ⋅ ( 5.4.3 ) G a\left(\frac{n}{2}, \frac{1}{2 \sigma^{2}}\right) \cdot(5.4 .3) Ga(2n,2σ21)⋅(5.4.3) 式与
( 5.4.1 ) (5.4 .1) (5.4.1) 式在变量上只相差一个因子 σ 2 \sigma^{2} σ2.
χ 2 \chi^{2} χ2 分布有用的一个重要原因即是下面的定理.
定理 5.4.1 设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 是来自正态总体
N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2) 的样本, 其样本均值和样本方差分别为
x ˉ = 1 n ∑ i = 1 n x i 和 s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 , \bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i} \text { 和 } s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}, xˉ=n1i=1∑nxi 和 s2=n−11i=1∑n(xi−xˉ)2,
则有
(1) x ˉ \bar{x} xˉ 与 s 2 s^{2} s2 相互独立;
(2) x ˉ ∼ N ( μ , σ 2 / n ) \bar{x} \sim N\left(\mu, \sigma^{2} / n\right) xˉ∼N(μ,σ2/n);
(3) ( n − 1 ) s 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1) s^{2}}{\sigma^{2}} \sim \chi^{2}(n-1) σ2(n−1)s2∼χ2(n−1).
证明 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 的联合密度函数为
p ( x 1 , x 2 , ⋯ , x n ) = ( 2 π σ 2 ) − n / 2 e − ∑ i = 1 n x i − μ ) 2 2 σ 2 2 = ( 2 π σ 2 ) − n / 2 exp { − ∑ i = 1 n x i 2 − 2 n x ˉ μ + n μ 2 2 σ 2 } p\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\left(2 \pi \sigma^{2}\right)^{-n / 2} \mathrm{e}^{\left.-\sum_{i=1}^{n} x_{i}-\mu\right)^{2}} \frac{2 \sigma^{2}}{2}=\left(2 \pi \sigma^{2}\right)^{-n / 2} \exp \left\{-\frac{\sum_{i=1}^{n} x_{i}^{2}-2 n \bar{x} \mu+n \mu^{2}}{2 \sigma^{2}}\right\} p(x1,x2,⋯,xn)=(2πσ2)−n/2e−∑i=1nxi−μ)222σ2=(2πσ2)−n/2exp{
−2σ2∑i=1nxi2−2nxˉμ+nμ2}
记
X = ( x 1 , x 2 , ⋯ , x n ) T \boldsymbol{X}=\left(x_{1}, x_{2}, \cdots, x_{n}\right)^{\mathrm{T}} X=(x1,x2,⋯,xn)T,
取一个 n n n 维正交矩阵 A \boldsymbol{A} A, 其第一行的每一个元素均为
1 / n 1 / \sqrt{n} 1/n, 如
A = ( 1 n 1 n 1 n ⋯ 1 n 1 2 ⋅ 1 − 1 2 ⋅ 1 0 ⋯ 0 1 3 ⋅ 2 1 3 ⋅ 2 − 2 3 ⋅ 2 ⋯ 0 ⋮ ⋮ ⋮ ⋮ 1 n ( n − 1 ) 1 n ( n − 1 ) 1 n ( n − 1 ) ⋯ − n − 1 n ( n − 1 ) ) , A=\left(\begin{array}{ccccc} \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \frac{1}{\sqrt{n}} & \cdots & \frac{1}{\sqrt{n}} \\ \frac{1}{\sqrt{2 \cdot 1}} & -\frac{1}{\sqrt{2 \cdot 1}} & 0 & \cdots & 0 \\ \frac{1}{\sqrt{3 \cdot 2}} & \frac{1}{\sqrt{3 \cdot 2}} & -\frac{2}{\sqrt{3 \cdot 2}} & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ \frac{1}{\sqrt{n(n-1)}} & \frac{1}{\sqrt{n(n-1)}} & \frac{1}{\sqrt{n(n-1)}} & \cdots & -\frac{n-1}{\sqrt{n(n-1)}} \end{array}\right), A=
n12⋅1
概率论与数理统计教程(五)-统计量及其分布04:三大抽样分布
于 2024-02-10 23:31:02 首次发布