在数理统计复习笔记一——统计中常用的抽样分布和数理统计复习笔记二——充分统计量中,分别介绍了统计量的几个常用抽样分布和充分统计量,引入统计量的目的在于对感兴趣的问题进行统计推断。本文先讨论感兴趣参数的估计问题——点估计。
一、矩估计
1.1 定义
对于样本
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn以及任意一正整数
k
k
k,我们称
a
k
=
1
n
∑
i
=
1
n
X
i
k
(1)
a_k=\frac{1}{n}\sum_{i=1}^nX_i^k\tag1
ak=n1i=1∑nXik(1)
m
k
=
1
n
∑
i
=
1
n
(
X
i
−
X
‾
)
k
(2)
m_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^k\tag2
mk=n1i=1∑n(Xi−X)k(2)
为样本
k
k
k阶原点矩和
k
k
k阶中心矩。
称总体 X X X的 k k k阶原点矩和 k k k阶中心矩分别为 μ k = E X k (3) \mu_k=EX^k\tag3 μk=EXk(3) ν k = E ( X − μ 1 ) k (4) \nu_k=E(X-\mu_1)^k\tag4 νk=E(X−μ1)k(4)
由定义可知,样本矩不依赖于总体中的参数,但总体矩则与分布中的未知参数有关。由中心极限定理和大数定律可知,样本矩是总体矩的一个很好的估计。
1.2 总体均值和方差的矩估计
记
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn为简单随机样本,且总体二阶矩存在,记
μ
=
E
(
X
)
\mu=E(X)
μ=E(X),
σ
2
=
V
a
r
(
X
)
\sigma^2=Var(X)
σ2=Var(X),则由矩估计法可知
μ
^
=
a
1
=
1
n
∑
i
=
1
n
X
i
(5)
\hat\mu=a_1=\frac{1}{n}\sum_{i=1}^nX_i\tag5
μ^=a1=n1i=1∑nXi(5)
μ
^
2
=
μ
^
2
+
σ
^
2
=
a
2
=
1
n
∑
i
=
1
n
X
i
2
(6)
\hat\mu_2=\hat\mu^2+\hat\sigma^2=a_2=\frac{1}{n}\sum_{i=1}^nX_i^2\tag6
μ^2=μ^2+σ^2=a2=n1i=1∑nXi2(6)
由此可求得总体均值和方差的矩估计为
μ
^
=
X
‾
(7)
\hat\mu=\overline X\tag7
μ^=X(7)
σ
^
2
=
1
n
∑
i
=
1
n
(
X
i
−
X
‾
)
2
(8)
\hat\sigma^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2\tag8
σ^2=n1i=1∑n(Xi−X)2(8)
所以,总体均值的矩估计是样本均值,总体方差的矩估计是样本方差的
n
−
1
n
\frac{n-1}{n}
nn−1倍。记
S
n
∗
2
=
1
n
∑
i
=
1
n
(
X
i
−
X
‾
)
2
S_n^{*2}=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2
Sn∗2=n1i=1∑n(Xi−X)2为修正的样本方差。而且上述结论不要求总体分布的形式。
1.3 例子
- 柏松分布
P
(
λ
)
P(\lambda)
P(λ)的总体均值的矩估计:
λ
^
=
X
‾
(9)
\hat\lambda=\overline X\tag9
λ^=X(9)
λ
^
=
S
n
∗
2
(10)
\hat\lambda=S_n^{*2}\tag{10}
λ^=Sn∗2(10)
都是总体均值的矩估计( λ \lambda λ既是柏松分布 P ( λ ) P(\lambda) P(λ)的均值,又是方差),但本着选用低阶矩的原则,可以选用 ( 9 ) (9) (9)式。 - 均匀分布 U ( 0 , θ ) U(0, \theta) U(0,θ)中参数 θ \theta θ的估计: θ ^ = 2 X ‾ (11) \hat\theta=2\overline X\tag{11} θ^=2X(11)
二、极大似然估计
2.1 基本思想
认为概率最大的事情最有可能发生。
2.2 似然函数
对于分布族
{
f
(
x
,
θ
)
,
θ
∈
Θ
}
\{f(x,\theta),\theta\in\Theta\}
{f(x,θ),θ∈Θ},如以
f
(
x
,
θ
)
f(\bm x,\theta)
f(x,θ)记其
n
n
n个样本的联合概率分布,则对于给定的样本观测值
x
=
(
x
1
,
⋯
,
x
n
)
\bm x=(x_1,\cdots,x_n)
x=(x1,⋯,xn),我们称
f
(
x
,
θ
)
f(\bm x,\theta)
f(x,θ)为参数
θ
\theta
θ的似然函数,简称为似然函数,并记作
L
(
θ
,
x
)
=
f
(
x
,
θ
)
,
∀
θ
∈
Θ
(12)
L(\theta, \bm x)=f(\bm x,\theta), \forall\theta\in\Theta\tag{12}
L(θ,x)=f(x,θ),∀θ∈Θ(12)
称
ln
L
(
θ
,
x
)
\ln L(\theta, \bm x)
lnL(θ,x)为对数似然函数,记为
l
(
θ
,
x
)
l(\theta, \bm x)
l(θ,x)或
l
(
θ
)
l(\theta)
l(θ)
由定义可知,似然函数与样本联合概率分布相同,但二者的含义却不同:样本联合概率分布是固定参数值 θ \theta θ下关于样本 x \bm x x的函数,它的取值空间为样本空间 X \mathcal X X;似然函数则是固定样本观测值 x \bm x x下关于参数 θ \theta θ的函数,其在参数空间 Θ \Theta Θ上取值。
换句话说就是,当给定参数后,样本联合分布将告诉我们哪个样本将以多大的概率被观测到;反过来,当有了样本后,似然函数将告诉我们如何最有可能的取参数 θ \theta θ的估计。
2.3 MLE
2.3.1 定义
设
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn是来自某概率分布
f
(
x
,
θ
)
∈
F
=
{
f
(
x
,
θ
)
,
θ
∈
Θ
⊆
R
k
}
f(x,\theta)\in \mathcal F=\{f(x,\theta),\theta\in\Theta\subseteq\bm R^k\}
f(x,θ)∈F={f(x,θ),θ∈Θ⊆Rk}的一组样本,如果统计量
θ
^
(
X
)
\hat\theta(\bm X)
θ^(X)满足
L
(
θ
^
(
x
)
,
x
)
=
sup
θ
∈
Θ
L
(
θ
,
x
)
(13)
L(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}L(\theta,\bm x)\tag{13}
L(θ^(x),x)=θ∈ΘsupL(θ,x)(13)或等价的满足
l
(
θ
^
(
x
)
,
x
)
=
sup
θ
∈
Θ
l
(
θ
,
x
)
(14)
l(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}l(\theta,\bm x)\tag{14}
l(θ^(x),x)=θ∈Θsupl(θ,x)(14)
则称
θ
^
\hat\theta
θ^是
θ
\theta
θ的MLE
2.3.2 求解
根据定义可知,如果似然函数 L ( θ , x ) L(\theta,\bm x) L(θ,x)关于 θ \theta θ可微,则 θ \theta θ的MLE可以通过求解下面的方程求得: ∂ L ( θ , x ) ∂ θ j = 0 , j = 1 , ⋯ , k (15) \frac{\partial L(\theta,\bm x)}{\partial\theta_j}=0,j=1,\cdots,k\tag{15} ∂θj∂L(θ,x)=0,j=1,⋯,k(15)或等价的有 ∂ l ( θ , x ) ∂ θ j = 0 , j = 1 , ⋯ , k (16) \frac{\partial l(\theta,\bm x)}{\partial\theta_j}=0,j=1,\cdots,k\tag{16} ∂θj∂l(θ,x)=0,j=1,⋯,k(16)
称 15 15 15或 16 16 16为似然方程。
2.3.3 例子
-
正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的 μ \mu μ和 σ 2 \sigma^2 σ2的MLE: μ ^ = X ‾ (17) \hat\mu=\overline X\tag{17} μ^=X(17) σ ^ 2 = S n ∗ 2 (18) \hat\sigma^2=S_n^{*2}\tag{18} σ^2=Sn∗2(18)
由此可知,对于正态总体而言,其均值和方差的矩估计和MLE是一样的 -
均匀分布 U ( 0 , θ ) U(0,\theta) U(0,θ)的 θ \theta θ的MLE: θ ^ = X ( n ) (19) \hat\theta=X_{(n)}\tag{19} θ^=X(n)(19)
和矩估计相比,不妨令 θ ^ M = 2 X ‾ \hat\theta_M=2\overline X θ^M=2X, θ ^ L = X ( n ) \hat\theta_L=X_{(n)} θ^L=X(n),则 E ( θ ^ M ) = θ E(\hat\theta_M)=\theta E(θ^M)=θ, V a r ( θ ^ M ) = θ 2 3 n Var(\hat\theta_M)=\frac{\theta^2}{3n} Var(θ^M)=3nθ2, E ( θ ^ L ) = n n + 1 θ E(\hat\theta_L)=\frac{n}{n+1}\theta E(θ^L)=n+1nθ, V a r ( θ ^ M ) = n θ 2 ( n + 1 ) 2 ( n + 2 ) Var(\hat\theta_M)=\frac{n\theta^2}{(n+1)^2(n+2)} Var(θ^M)=(n+1)2(n+2)nθ2。所以 θ ^ M \hat\theta_M θ^M是无偏估计,而 θ ^ L \hat\theta_L θ^L不是,但 V a r θ ^ L < V a r θ ^ M Var \hat\theta_L \lt Var \hat\theta_M Varθ^L<Varθ^M -
柏松分布 P ( λ ) P(\lambda) P(λ)的 λ \lambda λ的MLE: λ ^ = X ‾ (20) \hat\lambda=\overline X\tag{20} λ^=X(20)
2.3.4 性质
- 一个参数的MLE不一定唯一
- MLE肯定是充分统计量的函数
- 如果 g ( θ ) g(\theta) g(θ)是 1 − 1 1-1 1−1映射,且 θ ^ \hat\theta θ^是 θ \theta θ的MLE,那么 g ( θ ^ ) g(\hat\theta) g(θ^)是 g ( θ ) g(\theta) g(θ)的MLE,称为不变原则。
三、无偏估计和一致最小方差无偏估计
前两小节介绍了两种估计参数的方法,但我们应该选取哪一种呢?这就涉及到本节讲述的选择准则问题。
3.1 无偏估计准则
3.1.1 无偏估计
如果
T
(
X
)
T(\bm X)
T(X)是未知参数
θ
\theta
θ的函数
g
(
θ
)
g(\theta)
g(θ)的一个估计量,且满足
E
θ
T
(
X
)
=
g
(
θ
)
,
∀
θ
∈
Θ
(21)
E_\theta T(\bm X)=g(\theta), \forall \theta\in\Theta\tag{21}
EθT(X)=g(θ),∀θ∈Θ(21)
则称
T
(
X
)
T(\bm X)
T(X)是
g
(
θ
)
g(\theta)
g(θ)的无偏估计,其中
E
θ
E_\theta
Eθ表示期望是在分布
f
θ
f_\theta
fθ下进行的。否则就是有偏估计,称
b
T
(
θ
)
=
E
θ
T
(
X
)
−
g
(
θ
)
b_T(\theta)=E_\theta T(\bm X)-g(\theta)
bT(θ)=EθT(X)−g(θ)为
T
(
X
)
T(\bm X)
T(X)的偏差。
对于正态总体,我们不难验证,样本均值 X ‾ \overline X X和样本方差 S n 2 S_n^2 Sn2分别是总体均值和方差的无偏估计(对于非正态总体,这一结论也是正确的),而总体方差的矩估计和MLE—— S n ∗ 2 S_n^{*2} Sn∗2则不是无偏的,这是我们采用 S n 2 S_n^2 Sn2作为样本方差定义的一个原因。虽然 S n ∗ 2 S_n^{*2} Sn∗2是有偏的,但随着 n n n的增大,它越来越接近无偏。
E ( X ‾ ) = E [ 1 n ∑ i = 1 n X i ] = 1 n ∑ i = 1 n E ( X i ) = 1 n ∑ i = 1 n μ = μ E(\overline X)=E[\frac{1}{n}\sum\limits_{i=1}^nX_i]=\frac{1}{n}\sum\limits_{i=1}^nE(X_i)=\frac{1}{n}\sum\limits_{i=1}^n\mu=\mu E(X)=E[n1i=1∑nXi]=n1i=1∑nE(Xi)=n1i=1∑nμ=μ,无偏得证。
E ( S n 2 ) = E [ 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 ] = 1 n − 1 E [ ∑ i = 1 n ( X i − X ‾ ) 2 ] = 1 n − 1 E ( ∑ i = 1 n X i 2 − n X ‾ 2 ) = 1 n − 1 E ( ∑ i = 1 n X i 2 ) − n n − 1 E ( X ‾ 2 ) E(S_n^2)=E[\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline X)^2]=\frac{1}{n-1}E[\sum\limits_{i=1}^n(X_i-\overline X)^2]=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2-n\overline X^2)=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2)-\frac{n}{n-1}E(\overline X^2) E(Sn2)=E[n−11i=1∑n(Xi−X)2]=n−11E[i=1∑n(Xi−X)2]=n−11E(i=1∑nXi2−nX2)=n−11E(i=1∑nXi2)−n−1nE(X2),而 E ( X i 2 ) − E ( X i ) 2 = σ 2 E(X_i^2)-E(X_i)^2=\sigma^2 E(Xi2)−E(Xi)2=σ2,所以 E ( X i 2 ) = μ 2 + σ 2 E(X_i^2)=\mu^2+\sigma^2 E(Xi2)=μ2+σ2,所以 E ( ∑ i = 1 n X i 2 ) = n E ( X i 2 ) = n ( μ 2 + σ 2 ) (*) E(\sum\limits_{i=1}^nX_i^2)=nE(X_i^2)=n(\mu^2+\sigma^2)\tag{*} E(i=1∑nXi2)=nE(Xi2)=n(μ2+σ2)(*)。
注意到, V a r ( X ‾ ) = V a r ( 1 n ∑ i = 1 n X i ) = 1 n ∑ i = 1 n V a r ( X i ) = 1 n σ 2 Var(\overline X)=Var(\frac{1}{n}\sum\limits_{i=1}^nX_i)=\frac{1}{n}\sum\limits_{i=1}^nVar(X_i)=\frac{1}{n}\sigma^2 Var(X)=Var(n1i=1∑nXi)=n1i=1∑nVar(Xi)=n1σ2,而 V a r ( X ‾ ) = E [ X ‾ 2 ] − E ( X ‾ ) 2 = E [ X ‾ 2 ] − μ 2 Var(\overline X)=E[\overline X^2]-E(\overline X)^2=E[\overline X^2]-\mu^2 Var(X)=E[X2]−E(X)2=E[X2]−μ2,所以 E [ X ‾ 2 ] = μ 2 + 1 n σ 2 (**) E[\overline X^2]=\mu^2+\frac{1}{n}\sigma^2\tag{**} E[X2]=μ2+n1σ2(**)结合 ∗ * ∗和 ∗ ∗ ** ∗∗即可得到 E ( S n 2 ) = 1 n − 1 E ( ∑ i = 1 n X i 2 ) − n n − 1 E ( X ‾ 2 ) = n ( μ 2 + σ 2 ) n − 1 − n n − 1 ( μ 2 + 1 n σ 2 ) = σ 2 E(S_n^2)=\frac{1}{n-1}E(\sum\limits_{i=1}^nX_i^2)-\frac{n}{n-1}E(\overline X^2)=\frac{n(\mu^2+\sigma^2)}{n-1}-\frac{n}{n-1}(\mu^2+\frac{1}{n}\sigma^2)=\sigma^2 E(Sn2)=n−11E(i=1∑nXi2)−n−1nE(X2)=n−1n(μ2+σ2)−n−1n(μ2+n1σ2)=σ2,无偏得证。
注意到 σ 2 = E ( X i − μ ) 2 = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] \sigma^2=E(X_i-\mu)^2=E[\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2] σ2=E(Xi−μ)2=E[n1i=1∑n(Xi−μ)2],当 μ \mu μ已知时, 1 n ∑ i = 1 n ( X i − μ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2 n1i=1∑n(Xi−μ)2是 σ 2 \sigma^2 σ2的一个无偏估计。当 μ \mu μ未知时,自然的想法是用 X ‾ \overline X X代替 μ \mu μ,如果使用 1 n ∑ i = 1 n ( X i − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 n1i=1∑n(Xi−X)2来估计,那么会低估 σ 2 \sigma^2 σ2。证明如下:
1 n ∑ i = 1 n ( X i − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 n1i=1∑n(Xi−X)2= 1 n ∑ i = 1 n ( X i − μ + μ − X ‾ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 + 2 n ∑ i = 1 n ( X i − μ ) ( μ − X ‾ ) + 1 n ∑ i = 1 n ( μ − X ‾ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − ( μ − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu+\mu-\overline X)^2=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2+\frac{2}{n}\sum\limits_{i=1}^n(X_i-\mu)(\mu-\overline X)+\frac{1}{n}\sum\limits_{i=1}^n(\mu-\overline X)^2=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2-(\mu-\overline X)^2 n1i=1∑n(Xi−μ+μ−X)2=n1i=1∑n(Xi−μ)2+n2i=1∑n(Xi−μ)(μ−X)+n1i=1∑n(μ−X)2=n1i=1∑n(Xi−μ)2−(μ−X)2
所以除非正好 X ‾ = μ \overline X=\mu X=μ,否则我们一定有 1 n ∑ i = 1 n ( X i − X ‾ ) 2 < 1 n ∑ i = 1 n ( X i − μ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2\lt \frac{1}{n}\sum\limits_{i=1}^n(X_i-\mu)^2 n1i=1∑n(Xi−X)2<n1i=1∑n(Xi−μ)2
所以使用 1 n ∑ i = 1 n ( X i − X ‾ ) 2 \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 n1i=1∑n(Xi−X)2来估计,会低估方差。
3.1.2 渐进无偏估计
如果
T
(
X
)
T(\bm X)
T(X)是
g
(
θ
)
g(\theta)
g(θ)的一个有偏估计,且满足
lim
n
→
∞
E
θ
T
(
X
1
,
⋯
,
X
n
)
=
g
(
θ
)
,
∀
θ
∈
Θ
(22)
\lim_{n\to\infty}E_\theta T(X_1, \cdots, X_n)=g(\theta), \forall \theta\in\Theta\tag{22}
n→∞limEθT(X1,⋯,Xn)=g(θ),∀θ∈Θ(22)
则称
T
T
T是
g
(
θ
)
g(\theta)
g(θ)的渐进无偏估计。
3.1.3 说明
- 无偏估计是从多次重复的角度引入的概念,从期望的定义不难看出,尽管一次估计, T ( x ) T(\bm x) T(x)的值不一定恰好等于参数真值 g ( θ ) g(\theta) g(θ),但当大量重复使用时,其多次估计的平均值即等于参数
- 一个参数的无偏估计可能不是唯一的,也可能不存在,也可能不合理
- 缩小偏差的方法有刀切法和Bootstrap
3.1.4 例子
- 柏松分布 P ( λ ) P(\lambda) P(λ)的参数 1 λ \frac{1}{\lambda} λ1不存在无偏估计
- 对于正态总体,样本标准差 S n S_n Sn不是 σ \sigma σ的无偏估计(只有线性变换的无偏估计才是无偏估计)
- 由3.1.1可知,当正态总体均值 μ \mu μ已知或未知时, σ 2 \sigma^2 σ2的无偏估计不唯一
3.2 一致最小均方误差准则
设
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn是来自分布族
F
=
{
f
(
x
,
θ
)
:
θ
∈
Θ
}
\mathcal F=\{f(x,\theta):\theta\in\Theta\}
F={f(x,θ):θ∈Θ}中某一分布的样本,
g
(
θ
)
g(\theta)
g(θ)是一参数函数,以
ε
(
g
)
\varepsilon(g)
ε(g)表示用来估计
g
(
θ
)
g(\theta)
g(θ)的某些估计量的集合,如果存在一个
T
∗
∈
ε
(
g
)
T^*\in\varepsilon(g)
T∗∈ε(g),使得对任一
T
∈
ε
(
g
)
T\in\varepsilon(g)
T∈ε(g)均有
E
θ
(
T
∗
−
g
(
θ
)
)
2
≤
E
θ
(
T
−
g
(
θ
)
)
2
,
∀
θ
∈
Θ
(23)
E_\theta(T^*-g(\theta))^2\le E_\theta(T-g(\theta))^2, \forall \theta\in\Theta\tag{23}
Eθ(T∗−g(θ))2≤Eθ(T−g(θ))2,∀θ∈Θ(23)
则称
T
∗
T^*
T∗为
g
(
θ
)
g(\theta)
g(θ)的在
ε
(
g
)
\varepsilon(g)
ε(g)中的一致最小均方误差估计,也称
T
∗
T^*
T∗在均方意义下优于
T
T
T。
均方误差(MSE): M S E ( T ) = E θ ( T − g ( θ ) ) 2 MSE(T)=E_\theta(T-g(\theta))^2 MSE(T)=Eθ(T−g(θ))2,当 T T T是 g ( θ ) g(\theta) g(θ)的无偏估计时,其MSE就是它的方差
3.3 一致最小方差无偏估计( U M V U E UMVUE UMVUE)
3.3.1 定义
设
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn是来自分布族
F
=
{
f
(
x
,
θ
)
:
θ
∈
Θ
}
\mathcal F=\{f(x,\theta):\theta\in\Theta\}
F={f(x,θ):θ∈Θ}中某一分布的样本,
g
(
θ
)
g(\theta)
g(θ)是一参数函数,又设
T
∗
T^*
T∗为
g
(
θ
)
g(\theta)
g(θ)的一个无偏估计。如对于
g
(
θ
)
g(\theta)
g(θ)的任一无偏估计
T
T
T,均有
V
a
r
θ
(
T
∗
)
≤
V
a
r
θ
(
T
)
(24)
Var_\theta(T^*)\le Var_\theta(T)\tag{24}
Varθ(T∗)≤Varθ(T)(24)
则称
T
∗
T^*
T∗是
g
(
θ
)
g(\theta)
g(θ)的一致最小方差无偏估计,简记为
U
M
V
U
E
UMVUE
UMVUE。
- 对于某些分布族或参数,其 U M V U E UMVUE UMVUE不一定存在
- U M V U E UMVUE UMVUE在以概率1相等的意义下是唯一的
- 如果 T 1 T_1 T1和 T 2 T_2 T2分别是 g 1 ( θ ) g_1(\theta) g1(θ)和 g 2 ( θ ) g_2(\theta) g2(θ)的 U M V U E UMVUE UMVUE,则对于任给定的常数 a , b a, b a,b, a T 1 + b T 2 aT_1+bT_2 aT1+bT2是 a g 1 ( θ ) + b g 2 ( θ ) ag_1(\theta)+bg_2(\theta) ag1(θ)+bg2(θ)的 U M V U E UMVUE UMVUE
3.3.2 例子
- 正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的均值和方差的 U M V U E UMVUE UMVUE: T ( X ) = X ‾ (25) T(\bm X)=\overline X\tag{25} T(X)=X(25) S n 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 (26) S_n^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2\tag{26} Sn2=n−11i=1∑n(Xi−X)2(26)
3.4 信息不等式和有效估计
U M V U E UMVUE UMVUE的方差是最小的,下面给出这个最小方差的一般表达式。
3.4.1 正则分布族和Fisher信息量
如果单参数分布族 F = { f ( x , θ ) : θ ∈ Θ } \mathcal F=\{f(x,\theta): \theta\in\Theta\} F={f(x,θ):θ∈Θ}具有如下五个条件:
- 参数空间 Θ \Theta Θ是直线上的开区间(有限、无限或半无限)
- 导数 ∂ f ( x , θ ) ∂ θ \frac{\partial f(x,\theta)}{\partial\theta} ∂θ∂f(x,θ)存在, ∀ θ ∈ Θ \forall \theta\in\Theta ∀θ∈Θ
- 支撑剂与参数 θ \theta θ无关(支撑集 S = { x : f ( x , θ ) > 0 } S=\{x:f(x,\theta)\gt0\} S={x:f(x,θ)>0})
- 其 P D F PDF PDF f ( x , θ ) f(x,\theta) f(x,θ)的积分与微分运算可以互换,即 d d θ ∫ − ∞ ∞ f ( x , θ ) d x = ∫ − ∞ ∞ ∂ ∂ θ f ( x , θ ) d x (27) \frac{d}{d\theta}\int_{-\infty}^\infty f(x,\theta)\, dx=\int_{-\infty}^\infty \frac{\partial}{\partial\theta}f(x,\theta)\, dx\tag{27} dθd∫−∞∞f(x,θ)dx=∫−∞∞∂θ∂f(x,θ)dx(27)
- I ( θ ) = E θ ( ∂ ∂ θ ln f ( x , θ ) ) 2 (28) I(\theta)=E_\theta(\frac{\partial}{\partial\theta}\ln f(x, \theta))^2\tag{28} I(θ)=Eθ(∂θ∂lnf(x,θ))2(28)存在,且 I ( θ ) > 0 I(\theta)\gt0 I(θ)>0
则称此分布族为 C − R C-R C−R分布族,其中条件 1 − 5 1-5 1−5也称为正则条件, I ( θ ) I(\theta) I(θ)称为该分布族的Fisher信息量。
- 柏松分布族是 C − R C-R C−R分布族
- 正态分布族 N ( μ , 1 ) N(\mu, 1) N(μ,1), μ ∈ R \mu\in R μ∈R是 C − R C-R C−R分布族
- 均匀分布族 U ( 0 , θ ) U(0,\theta) U(0,θ)不是 C − R C-R C−R分布族
- 考虑IID样本的联合PDF,则可以证明 E θ ( ∂ ∂ θ ln f ( X , θ ) ) 2 = n I ( θ ) E_\theta(\frac{\partial}{\partial\theta}\ln f(\bm X, \theta))^2=nI(\theta) Eθ(∂θ∂lnf(X,θ))2=nI(θ)
3.4.2 信息不等式
本小节讨论正则分布族参数的无偏估计的方差的下界,即著名的信息不等式(C-R不等式)
设分布族
F
=
{
f
(
x
,
θ
)
:
θ
∈
Θ
}
\mathcal F=\{f(x,\theta): \theta\in\Theta\}
F={f(x,θ):θ∈Θ}是正则的,可估函数
g
(
θ
)
g(\theta)
g(θ)在
Θ
\Theta
Θ上可微,又设
X
1
,
⋯
,
X
n
X_1, \cdots, X_n
X1,⋯,Xn是
n
n
n个来自此分布族的IID样本,
T
(
X
)
T(\bm X)
T(X)是
g
(
θ
)
g(\theta)
g(θ)的一个无偏估计,且满足积分与微分号可互换的条件,即
d
d
θ
∫
−
∞
∞
T
(
x
)
f
(
x
,
θ
)
d
x
=
∫
−
∞
∞
T
(
x
)
∂
∂
θ
f
(
x
,
θ
)
d
x
(29)
\frac{d}{d\theta}\int_{-\infty}^\infty T(\bm x)f(x,\theta)\, dx=\int_{-\infty}^\infty T(\bm x)\frac{\partial}{\partial\theta}f(x,\theta)\, dx\tag{29}
dθd∫−∞∞T(x)f(x,θ)dx=∫−∞∞T(x)∂θ∂f(x,θ)dx(29)
则有
V
a
r
θ
(
T
(
X
)
)
≥
(
g
′
(
θ
)
)
2
n
I
(
θ
)
(30)
Var_\theta(T(\bm X))\ge\frac{(g^{'}(\theta))^2}{nI(\theta)}\tag{30}
Varθ(T(X))≥nI(θ)(g′(θ))2(30)
其中,
I
(
θ
)
I(\theta)
I(θ)为
F
\mathcal F
F的Fisher信息量,
(
g
′
(
θ
)
)
2
n
I
(
θ
)
\frac{(g^{'}(\theta))^2}{nI(\theta)}
nI(θ)(g′(θ))2成为
g
(
θ
)
g(\theta)
g(θ)的无偏估计的方差的C-R下界。
- 当样本不是独立时,只需把式 30 30 30中的 n I ( θ ) nI(\theta) nI(θ)换为 E θ ( ∂ ln f ( X , θ ) ∂ θ ) 2 E_\theta(\frac{\partial\ln f(\bm X,\theta)}{\partial\theta})^2 Eθ(∂θ∂lnf(X,θ))2即可
- 信息不等式与Fisher信息量密切相关。不妨假设信息不等式的下界可以取到,且 g ( θ ) = θ g(\theta)=\theta g(θ)=θ,则此时无偏估计的最小方差为 1 n I ( θ ) \frac{1}{nI(\theta)} nI(θ)1。这说明, n θ n\theta nθ越大,最小方差越小,参数 θ \theta θ越可以被精确的估计。这也说明,如果以估计量的方差的倒数作为估计量精度的指标,则精度与样本量 n n n成正比,而 I ( θ ) I(\theta) I(θ)则反映总体分布的性质, I ( θ ) I(\theta) I(θ)越大,说明总体本身提供的信息量越多。
- E θ [ ∂ ∂ θ ln f ( X , θ ) ] = 0 (31) E_\theta[\frac{\partial}{\partial\theta}\ln f(\bm X,\theta)]=0\tag{31} Eθ[∂θ∂lnf(X,θ)]=0(31)
- I ( θ ) = V a r θ [ ∂ ∂ θ ln f ( X , θ ) ] = − E θ [ ∂ 2 ∂ θ 2 ln f ( X , θ ) ] (32) I(\theta)=Var_\theta[\frac{\partial}{\partial\theta}\ln f(\bm X,\theta)]=-E_\theta[\frac{\partial^2}{\partial\theta^2}\ln f(\bm X,\theta)]\tag{32} I(θ)=Varθ[∂θ∂lnf(X,θ)]=−Eθ[∂θ2∂2lnf(X,θ)](32)
- 结合MLE的相关知识,可以得到 I ( θ ) I(\theta) I(θ)是用来估计MLE的方程的方差,详见极大似然估计的渐进正态性
3.4.3 有效估计
设
T
(
X
)
T(\bm X)
T(X)是
g
(
θ
)
g(\theta)
g(θ)的一个无偏估计,则比值
e
n
=
(
g
′
(
θ
)
)
2
/
n
I
(
θ
)
V
a
r
θ
T
(
X
)
(33)
e_n=\frac{(g^{'}(\theta))^2/nI(\theta)}{Var_\theta T(\bm X)}\tag{33}
en=VarθT(X)(g′(θ))2/nI(θ)(33)
为
T
(
X
)
T(\bm X)
T(X)的效率。如果
e
n
=
1
e_n=1
en=1,则称
T
(
X
)
T(\bm X)
T(X)为
g
(
θ
)
g(\theta)
g(θ)的有效估计。如果
lim
n
→
∞
e
n
=
1
\lim\limits_{n\to\infty}e_n=1
n→∞limen=1,则称
T
(
X
)
T(\bm X)
T(X)为
g
(
θ
)
g(\theta)
g(θ)的渐进有效估计。
3.5 相合估计
从大样本角度(即 n n n不固定)考虑估计的优良。
3.5.1 相合估计
设统计量 T n T_n Tn是总体参数 g ( θ ) g(\theta) g(θ)的估计量,如果当 n → ∞ n\to\infty n→∞时,
- T n T_n Tn依概率收敛于 g ( θ ) g(\theta) g(θ),即对 ∀ θ ∈ Θ \forall\theta\in\Theta ∀θ∈Θ及 ϵ > 0 \epsilon\gt0 ϵ>0,有 lim n → ∞ P { ∣ T n − g ( θ ) ∣ ≥ ϵ } = 0 \lim_{n\to\infty}P\{|T_n-g(\theta)|\ge\epsilon\} = 0 n→∞limP{∣Tn−g(θ)∣≥ϵ}=0则称 T n T_n Tn是 g ( θ ) g(\theta) g(θ)的(弱)相合估计。
- T n T_n Tn以概率1收敛于 g ( θ ) g(\theta) g(θ),即 ∀ θ ∈ Θ \forall\theta\in\Theta ∀θ∈Θ,有 P { lim n → ∞ T n = g ( θ ) } = 1 P\{\lim_{n\to\infty}T_n=g(\theta)\}=1 P{n→∞limTn=g(θ)}=1则称 T n T_n Tn是 g ( θ ) g(\theta) g(θ)的强相合估计。
3.5.2 例子
只要样本 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn是 I I D IID IID的,且期望 E X = μ EX=\mu EX=μ存在,则由大数定律知,样本均值就是总体均值 μ \mu μ的相合估计,而与其具体分布无关。