第二章 抽样分布及若干预备知识(2)
1.单个次序统计量的分布
现假设 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn是来自总体 F F F的简单随机样本, f f f是 F F F的密度, ( X ( 1 ) , ⋯ , X ( n ) ) (X_{(1)},\cdots,X_{(n)}) (X(1),⋯,X(n))是其次序统计量。
现在要求第 k k k个次序统计量 X ( k ) X_{(k)} X(k)的分布,先求出它的概率密度函数。由于其密度函数 f k ( x ) f_k(x) fk(x)是分布函数 F k ( x ) F_k(x) Fk(x)的导数,即 f k ( x ) = lim Δ x → 0 F k ( x + Δ x ) − F k ( x ) Δ x f_k(x)=\lim \limits_{\Delta x\to 0}\frac{F_k(x+\Delta x)-F_k(x)}{\Delta x} fk(x)=Δx→0limΔxFk(x+Δx)−Fk(x),而 F k ( x + Δ x ) − F k ( x ) F_k(x+\Delta x)-F_k(x) Fk(x+Δx)−Fk(x)的含义,是 X ( k ) X_{(k)} X(k)落在小区间 [ x , x + Δ x ] [x,x+\Delta x] [x,x+Δx]内的概率,我们可以以此入手求密度函数。
现在考虑“第 k k k个次序统计量 X ( k ) X_{(k)} X(k)落在无穷小区间”这一事件,找它的等价事件,为“样本 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn中,有 k − 1 k-1 k−1个落在 ( − ∞ , x ) (-\infty, x) (−∞,x)内, 1 1 1个落在 [ x , x + Δ x ] [x,x+\Delta x] [x,x+Δx]内, n − k n-k n−k个落在 ( x + Δ x , ∞ ) (x+\Delta x,\infty ) (x+Δx,∞)内”。将样本分成这样的三组一共有 C n k − 1 C n − k + 1 1 = n ! ( n − k ) ! ( k − 1 ) ! C_{n}^{k-1}C_{n-k+1}^{1}=\frac{n!}{(n-k)!(k-1)!} Cnk−1Cn−k+11=(n−k)!(k−1)!n!种分法。
现在考虑其中的一种分法,即
X
1
,
⋯
,
X
k
−
1
<
x
<
X
k
<
x
+
Δ
x
<
X
k
+
1
,
⋯
,
X
n
X_1,\cdots,X_{k-1}<x<X_k<x+\Delta x<X_{k+1},\cdots,X_n
X1,⋯,Xk−1<x<Xk<x+Δx<Xk+1,⋯,Xn。由于样本的总体分布函数为
F
X
(
x
)
=
(
F
(
x
)
)
n
F_X(x)=(F(x))^n
FX(x)=(F(x))n,所以这个事件的概率为
P
(
X
1
,
⋯
,
X
k
−
1
<
x
<
X
k
<
x
+
Δ
x
<
X
k
+
1
,
⋯
,
X
n
)
=
[
F
(
x
)
]
k
−
1
[
1
−
F
(
x
+
Δ
x
)
]
n
−
k
[
F
(
x
+
Δ
x
)
−
F
(
x
)
]
\begin{aligned} &\mathbf P(X_1,\cdots,X_{k-1}<x<X_k<x+\Delta x<X_{k+1},\cdots,X_n)\\ =&[F(x)]^{k-1}[1-F(x+\Delta x)]^{n-k}[F(x+\Delta x)-F(x)] \end{aligned}
=P(X1,⋯,Xk−1<x<Xk<x+Δx<Xk+1,⋯,Xn)[F(x)]k−1[1−F(x+Δx)]n−k[F(x+Δx)−F(x)]
由于一共有
n
!
(
n
−
k
)
!
(
k
−
1
)
!
\frac{n!}{(n-k)!(k-1)!}
(n−k)!(k−1)!n!种分法,所以有
F
k
(
x
+
Δ
x
)
−
F
k
(
x
)
=
n
!
(
n
−
k
)
!
(
k
−
1
)
!
[
F
(
x
)
]
k
−
1
[
1
−
F
(
x
+
Δ
x
)
]
n
−
k
[
F
(
x
+
Δ
x
)
−
F
(
x
)
]
\begin{aligned} &F_k(x+\Delta x)-F_k(x)\\ =&\frac{n!}{(n-k)!(k-1)!}[F(x)]^{k-1}[1-F(x+\Delta x)]^{n-k}[F(x+\Delta x)-F(x)] \end{aligned}
=Fk(x+Δx)−Fk(x)(n−k)!(k−1)!n![F(x)]k−1[1−F(x+Δx)]n−k[F(x+Δx)−F(x)]
接下来就可以求密度函数:
f
k
(
x
)
=
lim
Δ
x
→
0
F
k
(
x
+
Δ
x
)
−
F
(
x
)
Δ
x
=
n
!
(
n
−
k
)
!
(
k
−
1
)
!
lim
Δ
x
→
0
[
F
(
x
)
]
k
−
1
[
1
−
F
(
x
+
Δ
x
)
]
n
−
k
F
(
x
+
Δ
x
)
−
F
(
x
)
Δ
x
=
n
!
(
n
−
k
)
!
(
k
−
1
)
!
[
F
(
x
)
]
k
−
1
[
1
−
F
(
x
)
]
n
−
k
f
(
x
)
\begin{aligned} &f_k(x)\\ =&\lim \limits_{\Delta x \to 0} \frac{F_k(x+\Delta x)-F(x)}{\Delta x}\\ =&\frac{n!}{(n-k)!(k-1)!}\lim \limits_{\Delta x\to 0}[F(x)]^{k-1}[1-F(x+\Delta x)]^{n-k}\frac{F(x+\Delta x)-F(x)}{\Delta x}\\ =&\frac{n!}{(n-k)!(k-1)!}[F(x)]^{k-1}[1-F(x)]^{n-k}f(x) \end{aligned}
===fk(x)Δx→0limΔxFk(x+Δx)−F(x)(n−k)!(k−1)!n!Δx→0lim[F(x)]k−1[1−F(x+Δx)]n−kΔxF(x+Δx)−F(x)(n−k)!(k−1)!n![F(x)]k−1[1−F(x)]n−kf(x)
这就求得了单个次序统计量的密度函数。
特别地,样本最小值
X
(
1
)
X_{(1)}
X(1)的密度和分布函数是
f
1
(
x
)
=
n
f
(
x
)
[
1
−
F
(
x
)
]
n
−
1
F
1
(
x
)
=
1
−
[
1
−
F
(
x
)
]
n
f_1(x)=nf(x)[1-F(x)]^{n-1}\\ F_1(x)=1-[1-F(x)]^{n}
f1(x)=nf(x)[1−F(x)]n−1F1(x)=1−[1−F(x)]n
样本最大值
X
(
n
)
X_{(n)}
X(n)的密度和分布函数是
f
n
(
x
)
=
n
f
(
x
)
[
F
(
x
)
]
n
−
1
F
1
(
x
)
=
[
F
(
x
)
]
n
f_n(x)=nf(x)[F(x)]^{n-1}\\ F_1(x)=[F(x)]^n
fn(x)=nf(x)[F(x)]n−1F1(x)=[F(x)]n
2. n n n个次序统计量的联合分布
对于
n
n
n个次序统计量的联合分布,记其密度函数为
p
(
x
1
,
⋯
,
x
n
)
p(x_1,\cdots,x_n)
p(x1,⋯,xn),表达式为
p
(
x
1
,
⋯
,
x
n
)
=
{
n
!
f
(
x
1
)
f
(
x
2
)
⋯
f
(
x
n
)
,
x
1
<
⋯
<
x
n
;
0
,
o
t
h
e
r
w
i
s
e
.
p(x_1,\cdots, x_n)=\left\{ \begin{array}{l} n!f(x_1)f(x_2)\cdots f(x_n), &x_1<\cdots<x_n;\\ 0,&otherwise. \end{array} \right.
p(x1,⋯,xn)={n!f(x1)f(x2)⋯f(xn),0,x1<⋯<xn;otherwise.
直观地理解是,由于次序统计量显然是从小到大递增的,因此显然不可能出现
x
1
>
x
2
,
X
(
1
)
∈
[
x
1
,
x
i
+
Δ
x
1
]
,
X
2
∈
[
x
2
,
x
2
+
Δ
x
2
]
x_1>x_2,X_{(1)}\in[x_1,x_i+\Delta x_1],X_2\in [x_2, x_2+\Delta x_2]
x1>x2,X(1)∈[x1,xi+Δx1],X2∈[x2,x2+Δx2]的情况,所以当次序不对时密度为0。其次,将样本次序化,其实就是给样本增加了顺序,抹除了样本本身的无序性,任何一种从小到大的排列现在都有
n
!
n!
n!中实际可能的排列,因此在
n
n
n个样本的联合密度前乘以
n
!
n!
n!。
3.两个次序统计量的联合分布
两个次序统计量的分布比起一个的要稍微复杂一些,现在考虑 X ( i ) , X ( j ) , i < j X_{(i)},X_{(j)},i<j X(i),X(j),i<j,显然不可能出现 X ( i ) > X ( j ) X_{(i)}>X_{(j)} X(i)>X(j)的情况,因此在它们的联合密度 f i , j f_{i,j} fi,j中 i > j i>j i>j处的密度肯定也为0。
对于
i
<
j
i<j
i<j时,
f
i
,
j
(
x
i
,
x
j
)
f_{i,j}(x_i,x_j)
fi,j(xi,xj)可以看成
∂
2
F
i
,
j
(
x
i
,
x
j
)
∂
x
i
∂
x
j
\frac{\partial^2F_{i,j}(x_i,x_j)}{\partial x_i \partial x_j}
∂xi∂xj∂2Fi,j(xi,xj),因此类比单次序统计量的情形,我们可以找到事件“
i
−
1
i-1
i−1个样本落在
(
−
∞
,
x
i
)
(-\infty,x_i)
(−∞,xi),1个落在
(
x
i
,
x
i
+
Δ
x
i
)
(x_i,x_i+\Delta x_i)
(xi,xi+Δxi),
j
−
i
−
1
j-i-1
j−i−1个落在
(
x
i
+
Δ
x
i
,
x
j
)
(x_i+\Delta x_i,x_j)
(xi+Δxi,xj),1个落在
(
x
j
,
x
j
+
Δ
x
j
)
(x_j, x_j+\Delta x_j)
(xj,xj+Δxj),
n
−
j
n-j
n−j个落在
(
x
j
+
Δ
x
j
,
∞
)
(x_j+\Delta x_j,\infty)
(xj+Δxj,∞)”。相对应地得到
f
i
,
j
(
x
i
,
x
j
)
f_{i,j}(x_i,x_j)
fi,j(xi,xj)的表达式:
f
i
,
j
(
x
i
,
x
j
)
=
C
n
i
−
1
C
n
−
i
+
1
1
C
n
−
i
j
−
i
−
1
C
n
−
j
+
1
1
I
{
x
i
<
x
j
}
[
F
(
x
i
)
]
i
−
1
[
F
(
x
j
)
−
F
(
x
i
)
]
j
−
i
−
1
[
1
−
F
(
x
j
)
]
n
−
j
f
(
x
i
)
f
(
x
j
)
=
n
!
(
i
−
1
)
!
(
j
−
i
−
1
)
!
(
n
−
j
)
!
I
{
x
i
<
x
j
}
[
F
(
x
i
)
]
i
−
1
[
F
(
x
j
)
−
F
(
x
i
)
]
j
−
i
−
1
[
1
−
F
(
x
j
)
]
n
−
j
f
(
x
i
)
f
(
x
j
)
\begin{aligned} &f_{i,j}(x_i,x_j)\\ =&C_n^{i-1}C_{n-i+1}^1C_{n-i}^{j-i-1}C_{n-j+1}^{1}I_{\{x_i<x_j\}}\\&[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}f(x_i)f(x_j)\\ =&\frac{n!}{(i-1)!(j-i-1)!(n-j)!}I_{\{x_i<x_j\}}\\&[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}f(x_i)f(x_j) \end{aligned}
==fi,j(xi,xj)Cni−1Cn−i+11Cn−ij−i−1Cn−j+11I{xi<xj}[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−jf(xi)f(xj)(i−1)!(j−i−1)!(n−j)!n!I{xi<xj}[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−jf(xi)f(xj)
这里
I
A
I_A
IA为示性函数,在写分布、密度时不能遗漏。
特别地,对于
(
X
(
1
)
,
X
(
n
)
)
(X_{(1)},X_{(n)})
(X(1),X(n))的联合密度,可以带入求得
f
1
,
n
(
x
1
,
x
n
)
=
n
(
n
−
1
)
f
(
x
1
)
f
(
x
n
)
[
F
(
x
n
)
−
F
(
x
1
)
]
n
−
2
I
(
x
1
<
x
n
)
f_{1,n}(x_1,x_n)=n(n-1)f(x_1)f(x_n)[F(x_n)-F(x_1)]^{n-2}I_{(x_1<x_n)}
f1,n(x1,xn)=n(n−1)f(x1)f(xn)[F(xn)−F(x1)]n−2I(x1<xn)
4.极差的分布
极差 R = X ( n ) − X ( 1 ) R=X_{(n)}-X_{(1)} R=X(n)−X(1)的分布要用到随机向量的变换,这里先引入随机向量的变换定理。
- 设
(
X
1
,
X
2
)
(X_1,X_2)
(X1,X2)的密度为
p
(
x
1
,
x
2
)
p(x_1,x_2)
p(x1,x2),现有两个随机变量,分别为,
Y
1
=
y
1
(
X
1
,
X
2
)
,
Y
2
=
y
2
(
X
1
,
X
2
)
Y_1=y_1(X_1,X_2),Y_2=y_2(X_1,X_2)
Y1=y1(X1,X2),Y2=y2(X1,X2),其密度为
q
(
y
1
,
y
2
)
q(y_1,y_2)
q(y1,y2)。如果这两个函数有唯一的反函数组
X
1
=
x
1
(
Y
1
,
Y
2
)
,
X
2
=
x
2
(
Y
1
,
Y
2
)
X_1=x_1(Y_1,Y_2),X_2=x_2(Y_1,Y_2)
X1=x1(Y1,Y2),X2=x2(Y1,Y2),且
J = ∂ ( x 1 , x 2 ) ∂ ( y 1 , y 2 ) ≠ 0 J=\frac{\partial(x_1,x_2)}{\partial(y_1,y_2)}\neq0 J=∂(y1,y2)∂(x1,x2)=0
则有 q ( y 1 , y 2 ) = p ( x 1 ( y 1 , y 2 ) , x 2 ( y 1 , y 2 ) ) ∣ J ∣ q(y_1,y_2)=p(x_1(y_1,y_2), x_2(y_1,y_2))|J| q(y1,y2)=p(x1(y1,y2),x2(y1,y2))∣J∣。
这种情况下,令
R
=
X
(
n
)
−
X
(
1
)
,
V
=
X
(
1
)
R=X_{(n)}-X_{(1)},V=X_{(1)}
R=X(n)−X(1),V=X(1),则
X
(
1
)
=
V
,
X
(
n
)
=
R
+
V
X_{(1)}=V,X_{(n)}=R+V
X(1)=V,X(n)=R+V,
J
=
∣
0
1
1
1
∣
=
−
1
J=\left|\begin{array}{c}0&1\\1&1\end{array}\right|=-1
J=∣∣∣∣0111∣∣∣∣=−1。代入公式如下:
p
(
x
1
,
x
n
)
=
n
(
n
−
1
)
f
(
x
1
)
f
(
x
n
)
[
F
(
x
n
)
−
F
(
x
1
)
]
n
−
2
I
(
x
n
>
x
1
)
,
x
1
(
a
,
b
)
=
b
,
x
2
(
a
,
b
)
=
a
+
b
,
q
(
y
1
,
y
2
)
=
p
(
x
1
(
y
1
,
y
2
)
,
x
2
(
y
1
,
y
2
)
)
∣
J
∣
=
n
(
n
−
1
)
f
(
y
1
)
f
(
y
1
+
y
2
)
[
F
(
y
1
+
y
2
)
−
F
(
y
2
)
]
n
−
2
I
(
y
1
>
0
)
f
R
(
y
1
)
=
∫
0
∞
q
(
y
1
,
y
2
)
d
y
2
.
p(x_1,x_n)=n(n-1)f(x_1)f(x_n)[F(x_n)-F(x_1)]^{n-2}I_{(x_n>x_1)},\\ x_1(a,b)=b,x_2(a,b)=a+b, \\ \begin{aligned} q(y_1,y_2)&=p(x_1(y_1,y_2),x_2(y_1,y_2))|J|\\ &=n(n-1)f(y_1)f(y_1+y_2)[F(y_1+y_2)-F(y_2)]^{n-2}I_{(y_1>0)} \end{aligned}\\ f_R(y_1)=\int_0^\infty q(y_1,y_2)dy_2.
p(x1,xn)=n(n−1)f(x1)f(xn)[F(xn)−F(x1)]n−2I(xn>x1),x1(a,b)=b,x2(a,b)=a+b,q(y1,y2)=p(x1(y1,y2),x2(y1,y2))∣J∣=n(n−1)f(y1)f(y1+y2)[F(y1+y2)−F(y2)]n−2I(y1>0)fR(y1)=∫0∞q(y1,y2)dy2.
这就求得极差的密度
f
R
(
x
)
=
∫
0
∞
q
(
x
,
y
2
)
d
y
2
f_R(x)=\int_0^\infty q(x,y_2)dy_2
fR(x)=∫0∞q(x,y2)dy2。
5.均匀分布情形下的次序统计量
(标准)均匀分布:
U
(
0
,
1
)
,
f
(
x
)
=
I
(
0
<
x
≤
1
)
,
F
(
x
)
=
x
I
(
0
<
x
≤
1
)
+
I
(
x
>
1
)
U(0,1),f(x)=I_{(0<x\leq1)},F(x)=xI_{(0<x\leq1)}+I_{(x>1)}
U(0,1),f(x)=I(0<x≤1),F(x)=xI(0<x≤1)+I(x>1)。分布函数的意思是
F
(
x
)
=
{
0
,
x
≤
0
,
x
,
0
<
x
≤
1
,
1
,
x
>
1.
F(x)=\left\{ \begin{array}{l} 0,&x\leq0,\\ x,&0<x\leq1,\\ 1,&x>1. \end{array} \right.
F(x)=⎩⎨⎧0,x,1,x≤0,0<x≤1,x>1.
从
U
(
0
,
1
)
U(0,1)
U(0,1)中抽取样本
(
X
1
,
⋯
,
X
n
)
(X_1,\cdots,X_n)
(X1,⋯,Xn),次序统计量记为
X
(
1
)
,
⋯
,
X
(
n
)
X_{(1)},\cdots,X_{(n)}
X(1),⋯,X(n),代入次序统计量的一般公式,可以计算得到
f
k
(
x
)
=
n
!
(
n
−
k
)
!
(
k
−
1
)
!
x
k
−
1
(
1
−
x
)
n
−
k
I
(
0
<
x
<
1
)
f_k(x)=\frac{n!}{(n-k)!(k-1)!}x^{k-1}(1-x)^{n-k}I_{(0<x<1)}
fk(x)=(n−k)!(k−1)!n!xk−1(1−x)n−kI(0<x<1)
这里有
X
(
k
)
∼
β
(
k
,
n
−
k
+
1
)
X_{(k)}\sim \beta(k, n-k+1)
X(k)∼β(k,n−k+1)。
均匀分布下极差也是可以求的,将前面的
q
(
y
1
,
y
2
)
q(y_1,y_2)
q(y1,y2)代入均匀分布的相关数据,得到
q
(
y
1
,
y
2
)
=
n
(
n
−
1
)
y
1
n
−
2
I
(
0
<
y
1
≤
1
)
I
(
0
<
y
1
+
y
2
≤
1
)
I
(
y
1
>
0
)
f
R
(
x
)
=
∫
0
1
−
x
n
(
n
−
1
)
x
n
−
2
I
x
>
0
d
y
2
=
n
(
n
−
1
)
x
n
−
2
(
1
−
x
)
I
(
x
>
0
)
q(y_1,y_2)=n(n-1)y_1^{n-2}I_{(0<y_1\leq1)}I_{(0<y_1+y_2\leq1)}I_{(y_1>0)}\\ f_R(x)=\int_0^{1-x} n(n-1)x^{n-2}I_{x>0}dy_2=n(n-1)x^{n-2}(1-x)I_{(x>0)}
q(y1,y2)=n(n−1)y1n−2I(0<y1≤1)I(0<y1+y2≤1)I(y1>0)fR(x)=∫01−xn(n−1)xn−2Ix>0dy2=n(n−1)xn−2(1−x)I(x>0)
注意,在代入密度函数和分布函数的时候不能漏掉示性函数,在这里示性函数决定了边缘密度式中的积分限,如果漏掉就算不出最终的结果。