备考篇(1)
第一章
本章是数理统计中的基本知识和基础概念,包含样本、统计量、样本分布、经验分布函数等基本内容。
样本是从总体中抽取的一部分个体,具有两重性。当样本作为随机变量看待时,拥有和总体一样的分布函数,同时样本也有联合分布函数,其联合密度函数或联合密度函数为
f
(
x
1
,
⋯
,
x
n
)
=
f
(
x
1
)
f
(
x
2
)
⋯
f
(
x
n
)
f(x_1,\cdots,x_n)=f(x_1)f(x_2)\cdots f(x_n)
f(x1,⋯,xn)=f(x1)f(x2)⋯f(xn)
统计量是样本的函数,是根据样本可以直接算出的值。常用的统计量有样本均值、样本方差、经验分布函数、样本偏度与样本峰度、样本矩等。其中样本均值和样本方差最为常用,为
X
ˉ
=
1
n
∑
i
=
1
n
X
i
,
S
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
\bar X=\frac1n\sum_{i=1}^nX_i, S^2=\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2
Xˉ=n1i=1∑nXi,S2=n−11i=1∑n(Xi−Xˉ)2
其他的统计量大多可以由总体数字特征直接置换样本矩得到。样本矩分为样本原点矩和中心矩,分别是
a
n
,
k
=
1
n
∑
i
=
1
n
X
i
k
,
m
n
,
k
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
k
a_{n,k}=\frac1n\sum_{i=1}^nX_i^k, m_{n,k}=\frac1n\sum_{i=1}^n (X_i-\bar X)^k
an,k=n1i=1∑nXik,mn,k=n1i=1∑n(Xi−Xˉ)k
特别地,记
X
ˉ
=
a
n
,
1
,
S
n
2
=
m
n
,
2
=
(
n
−
1
)
S
2
/
n
\bar X=a_{n,1},S_n^2=m_{n,2}=(n-1) S^2/n
Xˉ=an,1,Sn2=mn,2=(n−1)S2/n。
次序统计量是将样本从小到大排列以后,排列在第几个的样本就是其第几次序统计量,这包括最大值、最小值。
统计量也有两重性,当统计量作为随机变量时也有它的分布函数。
数理统计中,取统计量是为了估计分布族中的未知参数。分布族是一类分布构成的集合,如正态分布族、指数分布族等,它们都具有未知参数,所有可能取到的参数构成参数空间。
经验分布函数是 F n ( x ) = # { X 1 , ⋯ , X n < x } F_n(x)=\#\{X_1,\cdots,X_n <x\} Fn(x)=#{X1,⋯,Xn<x},即样本观测值中小于 x x x的个数。格里汶科定理表明当 n → ∞ n\to \infty n→∞时, F n ( x ) F_n(x) Fn(x)以概率1收敛于 F ( x ) F(x) F(x)。
第二章
本章重点是数理统计中的常用分布与相关性质,包含正态分布、 Γ \Gamma Γ分布、 B \Beta B分布、三大分布、 Z Z Z分布、次序统计量分布、指数族、充分完全统计量等。
正态分布是三大分布的基础,独立的正态随机变量可以经过线性组合变换成另一个正态随机变量,具体有以下定理(以下正态变量均独立):
X
k
∼
N
(
a
k
,
σ
k
2
)
⇒
∑
k
=
1
n
X
k
∼
N
(
a
,
σ
2
)
,
a
=
∑
i
=
1
n
a
k
,
σ
2
=
∑
i
=
1
n
σ
k
2
X
∼
N
(
a
,
σ
2
)
⇒
n
X
∼
N
(
n
a
,
n
2
σ
2
)
X
∼
N
(
a
,
σ
2
)
⇒
X
ˉ
∼
N
(
a
,
σ
2
/
n
)
X_k\sim N(a_k,\sigma_k^2)\Rightarrow \sum_{k=1}^nX_k\sim N(a,\sigma^2),a=\sum_{i=1 }^na_k,\sigma^2=\sum_{i=1}^n \sigma_k^2\\ X\sim N(a,\sigma^2)\Rightarrow nX\sim N(na, n^2\sigma^2) \\ X\sim N(a,\sigma^2)\Rightarrow \bar X\sim N(a,\sigma^2/n)
Xk∼N(ak,σk2)⇒k=1∑nXk∼N(a,σ2),a=i=1∑nak,σ2=i=1∑nσk2X∼N(a,σ2)⇒nX∼N(na,n2σ2)X∼N(a,σ2)⇒Xˉ∼N(a,σ2/n)
对于正态分布总体
N
(
a
,
σ
2
)
N(a,\sigma^2)
N(a,σ2),其样本均值、样本方差有以下结论:
- X ˉ ∼ N ( a , σ 2 / n ) \bar X\sim N(a,\sigma^2/n) Xˉ∼N(a,σ2/n);
- ( n − 1 ) S 2 / σ 2 ∼ χ n − 1 2 (n-1)S^2/\sigma^2\sim \chi^2_{n-1} (n−1)S2/σ2∼χn−12;
- X ˉ , S 2 \bar X,S^2 Xˉ,S2相互独立,这只对正态总体成立。
为了证明以上结论,常常构造一个正交矩阵
A
\boldsymbol A
A为
(
1
n
1
n
1
n
⋯
1
n
1
2
⋅
1
−
1
2
⋅
1
0
⋯
0
1
3
⋅
2
1
3
⋅
2
−
2
3
⋅
2
⋯
0
⋯
⋯
⋯
⋯
⋯
1
n
(
n
−
1
)
1
n
(
n
−
1
)
1
n
(
n
−
1
)
⋯
−
(
n
−
1
)
n
(
n
−
1
)
)
\left( \begin{array}{c} \frac{1}{\sqrt n}&\frac1{\sqrt n}&\frac1{\sqrt n}&\cdots&\frac1{\sqrt n}\\ \frac1{\sqrt {2\cdot 1}}&\frac{-1}{\sqrt {2\cdot1}}&0&\cdots&0\\ \frac1{\sqrt{3\cdot2}}&\frac1{\sqrt{3\cdot2}}&\frac{-2}{\sqrt {3\cdot2}}&\cdots&0\\ \cdots&\cdots&\cdots &\cdots&\cdots\\ \frac1{\sqrt {n(n-1)}}&\frac1{\sqrt {n(n-1)}}&\frac1{\sqrt {n(n-1)}}&\cdots&\frac{-(n-1)}{\sqrt{n(n-1)}} \end{array} \right)
⎝⎜⎜⎜⎜⎜⎜⎛n12⋅113⋅21⋯n(n−1)1n12⋅1−13⋅21⋯n(n−1)1n103⋅2−2⋯n(n−1)1⋯⋯⋯⋯⋯n100⋯n(n−1)−(n−1)⎠⎟⎟⎟⎟⎟⎟⎞
然后利用
Y
=
A
X
\boldsymbol Y=\boldsymbol {AX}
Y=AX,可以证明得到2、3两个结论。
数理统计中常常用到两个欧拉积分以及相关变化,
Γ
\Gamma
Γ积分与
B
\Beta
B积分如下:
Γ
(
α
)
=
∫
0
∞
x
α
−
1
e
−
x
d
x
B
(
a
,
b
)
=
∫
0
1
x
a
−
1
(
1
−
x
)
b
−
1
d
x
\Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx\\ \Beta(a,b)=\int_0^1 x^{a-1}(1-x)^{b-1}dx
Γ(α)=∫0∞xα−1e−xdxB(a,b)=∫01xa−1(1−x)b−1dx
欧拉积分的相关变换还有
Γ
(
α
+
1
)
=
α
Γ
(
α
)
B
(
a
,
b
)
=
∫
0
1
x
a
−
1
(
1
−
x
)
b
−
1
d
x
=
x
=
t
1
+
t
t
=
x
1
−
x
∫
0
∞
t
a
−
1
(
1
+
t
)
−
(
a
+
b
)
d
t
=
∫
0
∞
x
a
−
1
(
1
+
x
)
a
+
b
d
x
B
(
a
,
b
)
=
Γ
(
a
)
Γ
(
b
)
Γ
(
a
+
b
)
\begin{aligned} \Gamma(\alpha+1)=&\alpha\Gamma(\alpha) \\ \Beta(a,b)=&\int_0^1x^{a-1}(1-x)^{b-1}dx\\ {\xlongequal[x=\frac{t}{1+t}]{t=\frac{x}{1-x}}{}}&\int_0^\infty t^{a-1}(1+t)^{-(a+b)}dt\\ =&\int_0^\infty\frac{x^{a-1}}{(1+x)^{a+b}}dx\\ \quad\\ \Beta(a,b)=&\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} \end{aligned}
Γ(α+1)=B(a,b)=t=1−xxx=1+tt=B(a,b)=αΓ(α)∫01xa−1(1−x)b−1dx∫0∞ta−1(1+t)−(a+b)dt∫0∞(1+x)a+bxa−1dxΓ(a+b)Γ(a)Γ(b)
基于此,有三种分布:
Γ
\Gamma
Γ分布、
B
\Beta
B分布、
Z
Z
Z分布,其密度函数分别为:
Γ
(
α
,
λ
)
=
λ
α
Γ
(
α
)
x
α
−
1
e
−
λ
x
I
(
0
,
∞
)
(
x
)
B
(
a
,
b
)
=
1
B
(
a
,
b
)
x
a
−
1
(
1
−
x
)
b
−
1
I
(
0
,
1
)
(
x
)
Z
(
a
,
b
)
=
1
B
(
a
,
b
)
x
a
−
1
(
1
+
x
)
a
+
b
I
(
0
,
∞
)
(
x
)
\Gamma(\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}I_{(0,\infty)}(x)\\ \Beta(a,b)=\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1}I_{(0,1)}(x)\\ Z(a,b)=\frac1{\Beta(a,b)}\frac{x^{a-1}}{(1+x)^{a+b}}I_{(0,\infty)}(x)
Γ(α,λ)=Γ(α)λαxα−1e−λxI(0,∞)(x)B(a,b)=B(a,b)1xa−1(1−x)b−1I(0,1)(x)Z(a,b)=B(a,b)1(1+x)a+bxa−1I(0,∞)(x)
三种分布的矩都可以通过欧拉积分变换求均值,分别为
E
(
Γ
(
α
,
λ
)
)
=
α
λ
,
E
(
B
(
a
,
b
)
)
=
a
a
+
b
,
E
(
Z
(
a
,
b
)
)
=
a
b
−
1
E(\Gamma(\alpha,\lambda))=\frac{\alpha}{\lambda},E(\Beta(a,b))=\frac a{a+b},E(Z(a,b))=\frac{a}{b-1}
E(Γ(α,λ))=λα,E(B(a,b))=a+ba,E(Z(a,b))=b−1a
三种分布的独立随机变量还满足以下一些关系:
X
1
∼
Γ
(
α
1
,
λ
)
,
X
2
∼
Γ
(
α
2
,
λ
)
⇒
X
1
+
X
2
∼
Γ
(
α
1
+
α
2
,
λ
)
X
1
∼
Γ
(
α
1
,
λ
)
,
X
2
∼
Γ
(
α
2
,
λ
)
⇒
X
1
X
1
+
X
2
∼
B
(
α
1
,
α
2
)
X
1
∼
Γ
(
α
1
,
λ
)
,
X
2
∼
Γ
(
α
2
,
λ
)
⇒
X
1
X
2
∼
Z
(
α
1
,
α
2
)
Y
∼
B
(
a
,
b
)
⇒
Y
1
−
Y
∼
Z
(
a
,
b
)
X
∼
Z
(
a
,
b
)
⇒
X
1
+
X
∼
B
(
a
,
b
)
X_1\sim \Gamma(\alpha_1,\lambda),X_2\sim \Gamma(\alpha_2,\lambda)\Rightarrow X_1+X_2\sim \Gamma(\alpha_1+\alpha_2,\lambda)\\ X_1\sim \Gamma(\alpha_1,\lambda),X_2\sim \Gamma(\alpha_2,\lambda)\Rightarrow \frac{X_1}{X_1+X_2}\sim \Beta(\alpha_1,\alpha_2)\\ X_1\sim \Gamma(\alpha_1,\lambda),X_2\sim \Gamma(\alpha_2,\lambda)\Rightarrow \frac{X_1}{X_2}\sim Z(\alpha_1,\alpha_2) \\ Y\sim \Beta(a,b)\Rightarrow \frac{Y}{1-Y}\sim Z(a,b)\\ X\sim Z(a,b)\Rightarrow \frac{X}{1+X}\sim \Beta(a,b)
X1∼Γ(α1,λ),X2∼Γ(α2,λ)⇒X1+X2∼Γ(α1+α2,λ)X1∼Γ(α1,λ),X2∼Γ(α2,λ)⇒X1+X2X1∼B(α1,α2)X1∼Γ(α1,λ),X2∼Γ(α2,λ)⇒X2X1∼Z(α1,α2)Y∼B(a,b)⇒1−YY∼Z(a,b)X∼Z(a,b)⇒1+XX∼B(a,b)
关于次序统计量,其密度函数可以由几何意义得出,这里写出几个常用的密度函数(分布函数),下设总体分布为 F ( x ) F(x) F(x),总体密度为 p ( x ) p(x) p(x)。
X
(
k
)
X_{(k)}
X(k)的密度函数为
p
k
(
x
)
=
n
!
(
n
−
k
)
!
(
k
−
1
)
!
[
F
(
x
)
]
k
−
1
[
(
1
−
F
(
x
)
)
]
n
−
k
p
(
x
)
p_k(x)=\frac{n!}{(n-k)!(k-1)!}[F(x)]^{k-1}[(1-F(x))]^{n-k}p(x)
pk(x)=(n−k)!(k−1)!n![F(x)]k−1[(1−F(x))]n−kp(x)
特别地对于最大最小值,有
p
1
(
x
)
=
n
p
(
x
)
[
1
−
F
(
x
)
]
n
−
1
,
F
1
(
x
)
=
1
−
[
1
−
F
(
x
)
]
n
p
n
(
x
)
=
n
p
(
x
)
[
F
(
x
)
]
n
−
1
,
F
n
(
x
)
=
[
F
(
x
)
]
n
p_1(x)=np(x)[1-F(x)]^{n-1},\quad F_1(x)=1-[1-F(x)]^{n}\\ p_n(x)=np(x)[F(x)]^{n-1},\quad F_n(x)=[F(x)]^n
p1(x)=np(x)[1−F(x)]n−1,F1(x)=1−[1−F(x)]npn(x)=np(x)[F(x)]n−1,Fn(x)=[F(x)]n
(
X
(
i
)
,
X
(
j
)
)
(X_{(i)},X_{(j)})
(X(i),X(j))的联合密度为
p
i
,
j
(
x
i
,
x
j
)
=
n
!
(
x
i
−
1
)
!
(
x
j
−
x
i
−
1
)
!
(
n
−
x
j
)
!
[
F
(
x
i
)
]
x
i
−
1
⋅
[
F
(
x
j
)
−
f
(
x
i
)
]
x
j
−
x
i
−
1
[
1
−
f
(
x
j
)
]
n
−
x
j
p
(
x
i
)
p
(
x
j
)
I
(
x
i
<
x
j
)
p_{i,j}(x_i,x_j)=\frac{n!}{(x_i-1)!(x_j-x_i-1)!(n-x_j)!}[F(x_i)]^{x_i-1}\cdot\\ [F(x_j)-f(x_i)]^{x_j-x_i-1}[1-f(x_j)]^{n-x_j}p(x_i)p(x_j)I(x_i<x_j)
pi,j(xi,xj)=(xi−1)!(xj−xi−1)!(n−xj)!n![F(xi)]xi−1⋅[F(xj)−f(xi)]xj−xi−1[1−f(xj)]n−xjp(xi)p(xj)I(xi<xj)
特别地对于
(
X
(
1
)
,
X
(
n
)
)
(X_{(1)},X_{(n)})
(X(1),X(n)),有
p
1
,
n
(
x
,
y
)
=
n
(
n
−
1
)
[
F
(
y
)
−
F
(
x
)
]
n
−
2
p
(
x
)
p
(
y
)
I
(
x
<
y
)
p_{1,n}(x,y)=n(n-1)[F(y)-F(x)]^{n-2}p(x)p(y)I(x<y)
p1,n(x,y)=n(n−1)[F(y)−F(x)]n−2p(x)p(y)I(x<y)
(
X
(
1
)
,
⋯
,
X
(
n
)
)
(X_{(1)},\cdots,X_{(n)})
(X(1),⋯,X(n))的联合密度为
p
(
x
(
1
)
,
⋯
,
x
(
n
)
)
=
n
!
p
(
x
(
1
)
)
⋯
p
(
x
(
n
)
)
I
(
x
(
1
)
<
⋯
<
x
(
n
)
)
p(x_{(1)},\cdots,x_{(n)})=n!p(x_{(1)})\cdots p(x_{(n)})I(x_{(1)}<\cdots<x_{(n)})
p(x(1),⋯,x(n))=n!p(x(1))⋯p(x(n))I(x(1)<⋯<x(n))
对于均匀分布
U
(
0
,
1
)
U(0,1)
U(0,1),其极差分布为
p
R
(
r
)
=
n
(
n
−
1
)
r
n
−
2
(
1
−
r
)
I
(
0
<
r
<
1
)
p_R(r)=n(n-1)r^{n-2}(1-r)I(0<r<1)
pR(r)=n(n−1)rn−2(1−r)I(0<r<1)
三大分布族指 χ 2 \chi^2 χ2分布、 t t t分布与 F F F分布,他们都是与正态分布相关的分布。
χ
n
2
\chi^2_n
χn2分布是
n
n
n个独立的
N
(
0
,
1
)
N(0,1)
N(0,1)变量和的分布,其密度函数为
Γ
(
n
/
2
,
1
/
2
)
\Gamma(n/2,1/2)
Γ(n/2,1/2)。其相关变形有
X
∼
Γ
(
n
,
λ
)
⇒
2
λ
X
∼
χ
2
n
2
X
1
∼
χ
a
2
,
X
2
∼
χ
b
2
⇒
X
1
+
X
2
∼
χ
a
+
b
2
X\sim \Gamma(n,\lambda)\Rightarrow 2\lambda X\sim \chi^2_{2n}\\ X_1\sim \chi^2_{a},X_2\sim \chi^2_b\Rightarrow X_1+X_2\sim \chi^2_{a+b}
X∼Γ(n,λ)⇒2λX∼χ2n2X1∼χa2,X2∼χb2⇒X1+X2∼χa+b2
t
t
t分布是
N
(
0
,
1
)
N(0,1)
N(0,1)与
χ
n
2
\chi^2_n
χn2分布正则化后的比值,即
X
∼
N
(
0
,
1
)
,
Y
∼
χ
n
2
⇒
T
=
X
Y
/
n
∼
t
n
X\sim N(0,1), Y\sim \chi^2_n\Rightarrow T=\frac{X}{\sqrt{Y/n}}\sim t_n
X∼N(0,1),Y∼χn2⇒T=Y/nX∼tn
F
F
F分布是两个正则化
χ
2
\chi^2
χ2分布的比值,即
X
∼
χ
m
2
,
Y
∼
χ
n
2
⇒
F
=
X
/
m
Y
/
n
∼
F
m
,
n
X\sim \chi^2_m, Y\sim \chi^2_n\Rightarrow F=\frac{X/m}{Y/n}\sim F_{m,n}
X∼χm2,Y∼χn2⇒F=Y/nX/m∼Fm,n
三大分布都有其各自的分位数表,可以用来进行区间估计和假设检验。
F
F
F分布在查表时还会用到以下用来求
α
\alpha
α较接近1时的转换公式:
F
m
,
n
(
1
−
α
)
=
1
F
n
,
m
(
α
)
F_{m,n}(1-\alpha)=\frac1{F_{n,m}(\alpha)}
Fm,n(1−α)=Fn,m(α)1
正态分布的相关统计量中,也有与三大分布的关联。以下单样本时设
X
∼
(
a
,
σ
2
)
X\sim(a,\sigma^2)
X∼(a,σ2)样本个数为
n
n
n;双样本时设
X
∼
N
(
a
1
,
σ
1
2
)
X\sim N(a_1,\sigma_1^2)
X∼N(a1,σ12)样本个数为
m
m
m,
Y
∼
N
(
a
2
,
σ
2
2
)
Y\sim N(a_2,\sigma_2^2)
Y∼N(a2,σ22)样本个数为
n
n
n。
∑
i
=
1
n
(
X
i
−
a
σ
)
2
∼
χ
n
2
T
=
n
(
X
ˉ
−
a
)
S
∼
t
n
−
1
F
=
S
1
2
S
2
2
σ
2
2
σ
1
2
∼
F
m
−
1
,
n
−
1
\sum_{i=1}^n\left(\frac{X_i-a}{\sigma}\right)^2\sim \chi^2_n\\ \quad\\ T=\frac{\sqrt n(\bar X-a)}{S}\sim t_{n-1}\\ \quad\\ F=\frac{S_1^2}{S_2^2}\frac{\sigma_2^2}{\sigma_1^2}\sim F_{m-1,n-1}
i=1∑n(σXi−a)2∼χn2T=Sn(Xˉ−a)∼tn−1F=S22S12σ12σ22∼Fm−1,n−1
指数族是一系列具有特殊形式样本密度函数(概率分布列)的参数分布族,如果可以将联合密度函数写成如下形式:
f
(
x
)
=
C
(
θ
)
exp
{
∑
i
=
1
k
Q
i
(
θ
)
T
i
(
x
)
}
h
(
x
)
f(\boldsymbol x)=C(\theta)\exp\left\{ \sum_{i=1}^kQ_i(\theta)T_i(\boldsymbol x) \right\}h(\boldsymbol x)
f(x)=C(θ)exp{i=1∑kQi(θ)Ti(x)}h(x)
指数族拥有良好的性质,最典型的是指数分布族拥有共同的支撑集,因此
U
(
0
,
θ
)
U(0,\theta)
U(0,θ)显然不是指数族。而正态分布族、二项分布族、Gamma分布族、泊松分布族等都是指数族。
在指数族的形式中,如果令
φ
i
=
Q
i
(
θ
)
\varphi_i=Q_i(\theta)
φi=Qi(θ),将
f
(
x
;
θ
)
f(\boldsymbol x;\theta)
f(x;θ)改写成
f
(
x
;
φ
)
f(\boldsymbol x;\varphi)
f(x;φ),就得到指数族的自然形式如下:
f
(
x
)
=
C
∗
(
φ
)
exp
{
∑
i
=
1
k
φ
i
T
i
(
x
)
}
h
(
x
)
f(\boldsymbol x)=C^*(\varphi)\exp\left\{ \sum_{i=1}^k\varphi_iT_i(\boldsymbol x) \right\}h(\boldsymbol x)
f(x)=C∗(φ)exp{i=1∑kφiTi(x)}h(x)
指数族的自然参数空间为凸集;指数族求导可以在积分号下求导,且可以求任意阶导数。
充分统计量指的是蕴含样本中所有关于未知参数信息的统计量,即在已知
T
T
T的条件下,样本的条件分布与未知参数
θ
\theta
θ无关。对于离散情形,要验证
P
(
X
∈
A
∣
T
)
\mathbf P(\boldsymbol X\in A|T)
P(X∈A∣T)与
θ
\theta
θ无关;对于连续情形,要验证
p
(
x
∣
T
)
p(\boldsymbol x|T)
p(x∣T)与
θ
\theta
θ无关,这里
P
(
X
∈
A
∣
T
=
t
)
=
P
(
X
∈
A
,
T
=
t
)
P
(
T
=
t
)
p
(
x
∣
t
)
=
p
(
x
,
t
)
p
(
t
)
\mathbf P(\boldsymbol X\in A|T=t)=\frac{P(\boldsymbol X\in A,T=t)}{P(T=t)}\\ p(\boldsymbol x|t)=\frac{p(x,t)}{p(t)}
P(X∈A∣T=t)=P(T=t)P(X∈A,T=t)p(x∣t)=p(t)p(x,t)
用定义验证统计量的充分性是麻烦的,如果可以将样本的联合密度函数写成
p
(
x
;
θ
)
=
g
(
T
(
x
)
,
θ
)
p(\boldsymbol x;\theta)=g(T(\boldsymbol x),\theta)
p(x;θ)=g(T(x),θ)
的形式,则
T
(
X
)
T(\boldsymbol X)
T(X)是充分统计量,这是因子分解定理。
完备统计量指的是对于某一个统计量 T T T,对任何满足 E ( φ ( T ) ) = 0 E(\varphi(T))=0 E(φ(T))=0都能推出 φ = 0 \varphi=0 φ=0以概率1成立。要证明统计量的完备性,一般会写出 E ( φ ( T ) ) E(\varphi(T)) E(φ(T))的离散和式或连续积分式,然后比较未知参数的系数或者对未知参数求导,从而得到 φ = 0 \varphi=0 φ=0。
在指数族的自然形式中,分布函数为
f
(
x
;
θ
)
=
C
(
θ
)
exp
{
∑
i
=
1
k
θ
i
T
i
(
x
)
}
h
(
x
)
f(\boldsymbol x;\theta)=C(\theta)\exp\left\{ \sum_{i=1 }^k\theta_iT_i(\boldsymbol x) \right\}h(\boldsymbol x)
f(x;θ)=C(θ)exp{i=1∑kθiTi(x)}h(x)
在
θ
\theta
θ的自然参数空间
Θ
∗
\Theta^*
Θ∗中,如果其作为
R
k
\R^k
Rk的子集有内点,则
T
(
X
)
=
(
T
1
(
X
)
,
⋯
,
T
k
(
X
)
)
\boldsymbol T(\boldsymbol X)=(T_1(\boldsymbol X),\cdots,T_k(\boldsymbol X))
T(X)=(T1(X),⋯,Tk(X))是完全统计量;如果
h
(
x
)
=
1
h(\boldsymbol x)=1
h(x)=1,则它还是充分统计量。
要证明某个统计量不是完备的,就要找到一个函数 φ ≠ 0 \varphi\neq0 φ=0,但 E ( φ ( T ) ) = 0 E(\varphi(T))=0 E(φ(T))=0。