第三章 点估计(2)
1.极大似然法
极大似然原理:对于某个给定的样本,当参数 θ \theta θ取 θ 1 \theta_1 θ1时,这个样本的出现概率要比参数 θ 2 \theta_2 θ2时更大,在所有的参数中,使得样本出现概率最大的参数 θ ^ \hat \theta θ^则为其极大似然估计。判断哪个参数对应的样本出现概率最大,使用似然函数。设 f ( x , θ ) = f ( x 1 , ⋯ , x n , θ ) f(\boldsymbol x,\theta)=f(x_1,\cdots,x_n,\theta) f(x,θ)=f(x1,⋯,xn,θ)为样本 X = ( X 1 , ⋯ , X n ) \boldsymbol X=(X_1,\cdots,X_n) X=(X1,⋯,Xn)的概率函数,固定 x \boldsymbol x x将其看成 θ \theta θ的函数,记作 L ( θ , x ) = f ( x , θ ) L(\theta,\boldsymbol x)=f(\boldsymbol x,\theta) L(θ,x)=f(x,θ),称为似然函数。 ln L ( θ , x ) \text{ln}L(\theta,\boldsymbol x) lnL(θ,x)称为对数似然函数,常记作 l ( θ , x ) l(\theta,\boldsymbol x) l(θ,x)。
由于 L ( θ , x ) L(\theta,\boldsymbol x) L(θ,x)是固定 x \boldsymbol x x以后,关于 θ \theta θ的样本出现概率,所以要求 θ \theta θ为多少时概率最大,也就是极大似然估计方法。
极大似然估计(MLE):设
X
=
(
X
1
,
⋯
,
X
n
)
\boldsymbol X=(X_1,\cdots,X_n)
X=(X1,⋯,Xn)是从参数分布族
F
=
{
f
(
x
,
θ
)
,
θ
∈
Θ
}
\mathscr F=\{f(x,\theta),\theta\in\Theta\}
F={f(x,θ),θ∈Θ}中抽取的简单随机样本,
L
(
θ
,
x
)
L(\theta,\boldsymbol x)
L(θ,x)是其似然函数。如果存在一个统计量
θ
^
∗
=
θ
^
∗
(
X
)
\hat \theta^*=\hat \theta^*(X)
θ^∗=θ^∗(X),满足条件
L
(
θ
^
∗
,
x
)
=
sup
θ
∈
Θ
L
(
θ
,
x
)
,
x
∈
X
或
者
l
(
θ
^
∗
,
x
)
=
sup
θ
∈
Θ
l
(
θ
.
x
)
L(\hat \theta^*,\boldsymbol x)=\sup_{\theta\in\Theta}L(\theta,\boldsymbol x),\boldsymbol x\in\mathscr X 或者l(\hat \theta^*,\boldsymbol x)=\sup_{\theta\in\Theta}l(\theta.\boldsymbol x)
L(θ^∗,x)=θ∈ΘsupL(θ,x),x∈X或者l(θ^∗,x)=θ∈Θsupl(θ.x)
则称
θ
^
∗
(
X
)
\hat \theta^*(X)
θ^∗(X)是
θ
\theta
θ的极大似然估计,同时
g
(
θ
^
∗
(
X
)
)
g(\hat \theta^*(X))
g(θ^∗(X))是
g
(
θ
)
g(\theta)
g(θ)的极大似然估计(可函数变换性)。
如何求MLE:
-
如果 L ( θ , x ) L(\boldsymbol {\theta ,x}) L(θ,x)是连续可微的,利用微分处理 l ( θ , x ) l(\boldsymbol {\theta,x}) l(θ,x),如果 l ( θ , x ) l(\boldsymbol {\theta,x}) l(θ,x)的极大值在参数空间 Θ \Theta Θ的内点处取到,就一定满足似然方程组 ∂ l ( θ , x ) ∂ θ i = 0 \frac{\partial l(\boldsymbol {\theta,x})}{\partial \theta_i}=0 ∂θi∂l(θ,x)=0。但满足似然方程组的点 ( θ 1 , ⋯ , θ k ) (\theta_1,\cdots,\theta_k) (θ1,⋯,θk)却不一定是MLE,因为极大值可能不在内点处取到(也可能在边界),且方程组的解也可能不唯一。一般可以通过判断似然函数的单调性(关于 θ \theta θ)再利用似然方程组求解。
但如果分布族是指数族,且似然方程组的解出现在参数空间的内点,则其解必为MLE。
-
如果 L ( θ , x ) L(\theta,\boldsymbol x) L(θ,x)不可微甚至不连续,那么似然方程一般没有意义,需要从定义出发寻找MLE。
MLE的性质:
-
无偏性方面,极大似然估计不一定是无偏的。
-
极大似然估计如果存在,则它必为充分统计量 T T T的函数,即可以整理成 φ ( T ) \varphi(T) φ(T)的形式。
-
相合性方面,极大似然估计也不一定是相合的。
-
渐近正态性方面,如果 L ( θ , x ) L(\theta,\boldsymbol x) L(θ,x)的1~3阶导关于 θ \theta θ有界, l ( θ , x ) l(\theta,\boldsymbol x) l(θ,x)的1~3阶导存在,且信息函数 I ( θ ) ∈ ( 0 , ∞ ) I(\theta)\in(0,\infty) I(θ)∈(0,∞),对数似然方程有唯一解,则极大似然估计是渐进相合正态的,且
n ( θ ^ ∗ − θ ) ⟶ L N ( 0 , 1 I ( θ ) ) I ( θ ) = E [ ( ∂ l ( θ , X ) ∂ θ ) 2 ] = ∫ − ∞ ∞ ( ∂ ln f ( x , θ ) ∂ θ ) 2 f ( x , θ ) d x \sqrt{n}(\hat \theta^*-\theta)\stackrel{\mathscr L}{\longrightarrow }N(0,\frac{1}{I(\theta)})\\ I(\theta)=E\left[\left(\frac{\partial l(\theta,\boldsymbol X)}{\partial \theta}\right)^2\right]=\int_{-\infty}^\infty\left(\frac{\partial{\text{ln}f(x,\theta)}}{\partial \theta}\right)^2f(x,\theta)dx n(θ^∗−θ)⟶LN(0,I(θ)1)I(θ)=E[(∂θ∂l(θ,X))2]=∫−∞∞(∂θ∂lnf(x,θ))2f(x,θ)dx
注意, θ \theta θ可能是一个参数组 ( θ 1 , ⋯ , θ n ) (\theta_1,\cdots,\theta_n) (θ1,⋯,θn),要求其中某一个参数 θ k \theta_k θk的信息函数,就将对数似然函数对 θ k \theta_k θk求偏导;在求期望的过程中,所有的参数 θ i \theta_i θi都视为常数,对样本 x x x求期望,所以最后的 I ( θ ) I(\theta) I(θ)是关于参数 θ \theta θ的函数,不含 x x x。