6.1 总体与样本
- 在数理统计中,我们将所研究的对象的全体称为总体,而将总体中的每个成员称为个体。
- 总体中所包含的个体的数量称为样本的容量,如果一个总体所包含的个体数量是有限的,则称之为有限总体。如果总体所包含的个体数量是无限的,则称之为无限总体。
- 样本:被抽取的部分个体
- 简单随机样本
- 随机样本 ( X 1 , X 2 , … , X n ) (X_1,X_2,…,X_n) (X1,X2,…,Xn)中,每个 X i X_i Xi与 X n X_n Xn是相互独立的随机变量
- 这些样本和总体 X X X同分布
- 获得简单随机样本
- 简单随机抽样
- 对于有限个体采用放回抽样
- 对于无限总体(或很大的总体)采用不放回抽样
6.2 统计量与抽样分布
一 、统计量
定义 设 ( X 1 , X 2 , … , X n ) (X_1, X_2, \dots, X_n) (X1,X2,…,Xn)为来自总体 X X X的一个样本, g ( x 1 , x 2 , … , x n ) g(x_1, x_2, \dots, x_n) g(x1,x2,…,xn)是 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X1,X2,…,Xn的函数,若 g g g中不含位置参数,则称 g ( X 1 , X 2 , … , X n ) g(X_1, X_2, \dots, X_n) g(X1,X2,…,Xn)是一统计量。
常用统计量:
-
样本平均值:
X ‾ = 1 n ∑ i = 1 n X i \overline X = \dfrac{1}{n} \sum_{i=1}^{n} X_i X=n1i=1∑nXi -
样本方差:
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) S^2= \dfrac{1}{n-1} \sum_{i=1}^{n}(X_i - \overline X) S2=n−11i=1∑n(Xi−X) -
样本标准差:
S = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}(X_i-\overline{X})} S=n−11i=1∑n(Xi−X) -
样本 k k k阶原点矩:
A k = 1 n ∑ i = 1 n X i k , k = 1 , 2 , 3 , … A_k=\frac{1}{n} \sum_{i=1}^{n} X_i^k, \quad k=1,2,3,\dots Ak=n1i=1∑nXik,k=1,2,3,… -
样本 k k k阶中心矩:
B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k , k = 1 , 2 , 3 , … B_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline X)^k,\quad k=1,2,3,\dots Bk=n1i=1∑n(Xi−X)k,k=1,2,3,…
在一次具体的观察中,统计量是具体的数值;但脱离具体的观察或试验,统计量应看作随机变量。
统计量的分布称为抽样分布
二 、正态总体的常用统计量的分布
( 一 ) χ 2 \chi^2 χ2分布
定义 设
X
1
,
X
2
,
…
,
X
n
X_1, X_2, \dots, X_n
X1,X2,…,Xn为独立同分布的随机变量,均服从
N
(
0
,
1
)
N(0, 1)
N(0,1),则称随机变量
χ
2
=
∑
i
=
1
n
X
i
2
\chi^2 = \sum_{i=1}^{n} X_i^2
χ2=i=1∑nXi2
为服从自由度为n的
χ
2
\chi^2
χ2分布,记为
χ
2
∼
χ
2
(
n
)
\chi^2 \sim \chi^2(n)
χ2∼χ2(n).
自由度:独立变量的个数
概率密度(不重要)
f
(
y
)
=
{
1
2
n
2
Γ
(
n
2
)
y
n
2
−
1
e
−
y
2
y>0
0
其他
f(y)= \begin{cases} \dfrac{1}{2^{\frac n2 \Gamma(\frac n2)}} y^{\frac {n}{2}-1}e^{-{\frac y2}} & \text{y>0}\\ 0& \text{其他} \end{cases}
f(y)=⎩⎨⎧22nΓ(2n)1y2n−1e−2y0y>0其他
其中,
Γ
(
α
)
=
∫
0
+
∞
x
α
−
1
e
−
x
d
x
Γ
(
n
)
=
(
n
−
1
)
!
\Gamma(\alpha)=\int_{0}^{+\infty}x^{\alpha-1}e^{-x}dx \\ \Gamma(n)=(n-1)!
Γ(α)=∫0+∞xα−1e−xdxΓ(n)=(n−1)!
性质:
-
χ 2 \chi^2 χ2分布的可加性 若 χ 1 2 ∼ χ 2 ( n 1 ) , χ 2 2 ∼ χ 2 ( n 2 ) \chi_1^2 \sim \chi^2(n_1),\chi_2^2 \sim \chi^2(n_2) χ12∼χ2(n1),χ22∼χ2(n2),并且 χ 1 2 \chi_1^2 χ12与 χ 2 2 \chi_2^2 χ22相互独立,则有
χ 1 2 + χ 2 2 ∼ χ 2 ( n 1 + n 2 ) \chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2) χ12+χ22∼χ2(n1+n2) -
χ 2 \chi^2 χ2分布的期望和方差 若 χ 2 ∼ χ 2 ( n ) \chi^2 \sim \chi^2(n) χ2∼χ2(n),则有
E ( χ 2 ) = n , D ( χ 2 ) = 2 n E(\chi^2)=n,\quad D(\chi^2)=2n E(χ2)=n,D(χ2)=2n
χ
2
\chi^2
χ2分布的上分位点 对于给定的正数
α
\alpha
α,
0
<
α
<
1
0<\alpha<1
0<α<1, 满足条件
P
{
χ
2
>
χ
α
2
(
n
)
}
=
∫
0
∞
f
(
y
)
d
y
=
α
P\{ \chi^2>\chi^2_\alpha(n) \}=\int_0^{\infty}f(y)dy=\alpha
P{χ2>χα2(n)}=∫0∞f(y)dy=α
的点
χ
α
2
(
n
)
\chi_\alpha^2(n)
χα2(n)就是
χ
2
(
n
)
\chi_2(n)
χ2(n)分布的上
α
\alpha
α分位点。
(二)t 分布
定义 设
X
∼
N
(
0
,
1
)
,
Y
∼
χ
2
(
n
)
X\sim N(0, 1),Y \sim \chi^2(n)
X∼N(0,1),Y∼χ2(n),且X与Y相互独立,则称随机变量
T
=
X
Y
/
n
T = \dfrac{X}{\sqrt{Y/n}}
T=Y/nX
为服从自由度n的 t 分布,记为
T
∼
t
(
n
)
T \sim t(n)
T∼t(n).
概率密度函数 :
h
(
t
)
=
Γ
[
(
n
+
1
)
/
2
]
π
n
Γ
(
n
/
2
)
(
1
+
t
2
n
)
−
(
n
+
1
)
/
2
h(t)=\dfrac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1+\frac{t^2}{n})^{-(n+1)/2}
h(t)=πnΓ(n/2)Γ[(n+1)/2](1+nt2)−(n+1)/2
当
n
→
+
∞
n \rightarrow +\infty
n→+∞时,
lim
n
→
+
∞
h
(
1
)
=
1
2
π
e
−
t
2
/
2
\displaystyle \lim_{n \rightarrow +\infty} h(1)=\frac{1}{\sqrt{2\pi}}e^{-t^2/2}
n→+∞limh(1)=2π1e−t2/2
故当n足够大时,t 分布近似于
N
(
0
,
1
)
N(0,1)
N(0,1)分布。
t 分布的上分位点 对于给定的
α
\alpha
α,
0
<
α
<
1
0<\alpha<1
0<α<1, 满足条件
P
{
t
>
t
α
(
n
)
}
=
∫
t
α
∞
h
(
t
)
d
t
=
α
P\{ t>t_\alpha(n)\}=\int_{t_\alpha}^\infty h(t) dt=\alpha
P{t>tα(n)}=∫tα∞h(t)dt=α
的点
t
α
(
n
)
t_\alpha(n)
tα(n)就是
t
(
n
)
t(n)
t(n)分布的上
α
\alpha
α分位点。
t
1
−
α
(
n
)
=
−
t
α
(
n
)
t_{1-\alpha}(n)=-t_\alpha(n)
t1−α(n)=−tα(n)
(三)F 分布
定义 设
U
∼
χ
2
(
n
1
)
,
V
∼
χ
2
(
n
2
)
U \sim \chi^2(n_1),V \sim \chi^2(n_2)
U∼χ2(n1),V∼χ2(n2),且U与V相互独立,则称随机变量
F
=
U
/
n
1
V
/
n
2
F = \dfrac{U/n_1}{V/n_2}
F=V/n2U/n1
服从自由度为
(
n
1
,
n
2
)
(n_1, n_2)
(n1,n2)的F分布,记为
F
∼
F
(
n
1
,
n
2
)
F \sim F(n_1, n_2)
F∼F(n1,n2).
概率密度函数 :
ψ
(
y
)
=
{
Γ
[
(
n
1
+
n
2
)
/
2
]
(
n
1
/
n
2
)
n
1
/
2
y
(
n
1
/
2
)
−
1
Γ
(
n
1
/
2
)
Γ
(
n
2
/
2
)
[
1
+
(
n
1
y
/
n
2
)
]
(
n
1
+
n
2
)
/
2
y>0
0
其他
\psi(y)= \begin{cases} \dfrac{\Gamma[(n_1+n_2)/2](n_1/n_2)^{n_1/2}y^{(n_1/2)-1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1y/n_2)]^{(n_1+n_2)/2}} & \text{y>0}\\ 0& \text{其他} \end{cases}
ψ(y)=⎩⎨⎧Γ(n1/2)Γ(n2/2)[1+(n1y/n2)](n1+n2)/2Γ[(n1+n2)/2](n1/n2)n1/2y(n1/2)−10y>0其他
性质:
- 若 F ∼ F ( n 1 , n 2 ) F \sim F(n_1, n_2) F∼F(n1,n2),则 1 F ∼ F ( n 2 , n 1 ) \dfrac{1}{F} \sim F(n_2, n_1) F1∼F(n2,n1).
- 若 T ∼ t ( n ) T \sim t(n) T∼t(n),则 T 2 ∼ F ( 1 , n ) T^2 \sim F(1, n) T2∼F(1,n)
F 分布的上分位点 对于给定的
α
\alpha
α,
0
<
α
<
1
0<\alpha<1
0<α<1, 满足条件
P
{
F
>
F
α
(
n
1
,
n
2
)
}
=
∫
F
α
(
n
1
,
n
2
)
∞
ψ
(
y
)
d
y
=
α
P\{ F>F_\alpha(n_1,n_2)\}=\int_{F_\alpha(n_1,n_2)}^\infty \psi(y) dy=\alpha
P{F>Fα(n1,n2)}=∫Fα(n1,n2)∞ψ(y)dy=α
的点
F
α
(
n
1
,
n
2
)
F_\alpha(n_1,n_2)
Fα(n1,n2)就是
F
(
n
1
,
n
2
)
F(n_1,n_2)
F(n1,n2)分布的上
α
\alpha
α分位点。
三 、正态总体的样本均值与样本方差的分布
定理一二三 设 X 1 , X 2 , … , X n X_1,X_2,\dots, X_n X1,X2,…,Xn是来自正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的样本,则
- X ˉ ∼ N ( μ , σ 2 n ) \bar{X} \sim N(\mu, \dfrac{\sigma^2}{n}) Xˉ∼N(μ,nσ2);
- ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \dfrac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) σ2(n−1)S2∼χ2(n−1);
- X ˉ \bar{X} Xˉ 和 S 2 S^2 S2相互独立;
- $\dfrac{\bar{X} - \mu}{S/\sqrt n} \sim t(n-1) $
定理四 设 X 1 , X 2 , … , X n X_1,X_2,\dots, X_n X1,X2,…,Xn与 Y 1 , Y 2 , … , Y n Y_1,Y_2,\dots,Y_n Y1,Y2,…,Yn分别是来自正态总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N(μ1,σ12)和 N ( μ 2 , σ 2 2 ) N(\mu_2, \sigma_2^2) N(μ2,σ22)的样本,且两样本相互独立。记 X ˉ = 1 n 1 ∑ i = 1 n 1 \bar{X}=\dfrac{1}{n_1} \displaystyle\sum_{i=1}^{n_1} Xˉ=n11i=1∑n1和 Y ˉ = 1 n 2 ∑ i = 1 n 2 \bar{Y}=\dfrac{1}{n_2} \displaystyle\sum_{i=1}^{n_2} Yˉ=n21i=1∑n2分别为它们的样本均值; S 1 2 = 1 n 1 − 1 ∑ i = 1 n 1 ( X i − X ˉ ) 2 S_1^2=\dfrac{1}{n_1-1} \displaystyle\sum_{i=1}^{n_1}({X_i-\bar{X})^2} S12=n1−11i=1∑n1(Xi−Xˉ)2, S 2 2 = 1 n 2 − 1 ∑ i = 1 n 2 ( Y i − Y ˉ ) 2 S_2^2=\dfrac{1}{n_2-1} \displaystyle\sum_{i=1}^{n_2}({Y_i-\bar{Y})^2} S22=n2−11i=1∑n2(Yi−Yˉ)2分别为它们的样本方差,则有
-
S 1 2 / S 2 2 σ 1 2 / σ 2 2 = F ( n 1 − 1 , n 2 − 1 ) \dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}=F(n_1-1,n_2-1) σ12/σ22S12/S22=F(n1−1,n2−1)
-
当 σ 1 2 = σ 2 2 = σ 3 2 \sigma_1^2=\sigma_2^2=\sigma_3^2 σ12=σ22=σ32时,
( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) \dfrac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_w \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2) Swn11+n21(Xˉ−Yˉ)−(μ1−μ2)∼t(n1+n2−2)
其中,
S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 , S w = S w 2 S_w^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2},\quad S_w=\sqrt{S_w^2} Sw2=n1+n2−2(n1−1)S12+(n2−1)S22,Sw=Sw2