参数估计是统计推断的基本问题,最大似然估计法是用于参数估计的一种常用方法。
点估计
通俗的说就是用一个样本来估计总体的分布的参数
定义:设总体
X
X
X的分布函数
F
(
x
;
θ
)
F(x;\theta)
F(x;θ)形式已知,
θ
\theta
θ是带估计参数。
X
1
,
X
2
,
X
3
,
.
.
.
X
n
X_1,X_2,X_3,...X_n
X1,X2,X3,...Xn是
X
X
X的一个样本,
x
1
,
x
2
,
x
3
,
.
.
.
x
n
x_1,x_2,x_3,...x_n
x1,x2,x3,...xn是相应的一个样本值。点估计问题就是要构造一个适当的统计量
θ
^
(
X
1
,
X
2
,
X
3
,
.
.
.
X
n
)
\hat{\theta}(X_1,X_2,X_3,...X_n)
θ^(X1,X2,X3,...Xn),用其观察值
θ
^
(
x
1
,
x
2
,
x
3
,
.
.
.
x
n
)
\hat{\theta}(x_1,x_2,x_3,...x_n)
θ^(x1,x2,x3,...xn)作为参数
θ
\theta
θ的近似值。我们称
θ
^
(
X
1
,
X
2
,
X
3
,
.
.
.
X
n
)
\hat{\theta}(X_1,X_2,X_3,...X_n)
θ^(X1,X2,X3,...Xn)为
t
h
e
t
a
theta
theta的估计量,称
θ
^
(
x
1
,
x
2
,
x
3
,
.
.
.
x
n
)
\hat{\theta}(x_1,x_2,x_3,...x_n)
θ^(x1,x2,x3,...xn)为
θ
\theta
θ的估计值。
最大似然法
最大似然法是一种常用的构造估计量的方法
其主要思想是,对于一个随机变量,我们想要估计其统计分布的某个参数时,若已知了一组样本,那么我们就可以使用这组样本来估计这个参数。
若总体是离散变量,其分布律为
P
(
X
=
x
)
=
p
(
x
;
θ
)
P(X=x)=p(x;\theta)
P(X=x)=p(x;θ),这里
θ
\theta
θ是待估计参数。
X
1
,
X
2
,
X
3
,
.
.
.
,
X
n
X_1,X_2,X_3,...,X_n
X1,X2,X3,...,Xn是来自总体X的样本。这里构造的估计量是这组样本的联合概率分布(这里还是使用上面的符号):
L
(
θ
)
=
L
(
X
1
,
X
2
,
X
3
.
.
.
,
X
n
;
θ
)
=
∏
i
=
1
n
p
(
X
i
;
θ
)
L(\theta)=L(X_1,X_2,X_3...,X_n;\theta)=\prod_{i=1}^{n}p(X_i;\theta)
L(θ)=L(X1,X2,X3...,Xn;θ)=i=1∏np(Xi;θ)
若已知这组样本的一个样本值是
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn,则上面的联合概率分布的估计值是:
L
(
θ
)
=
L
(
x
1
,
x
2
,
x
3
.
.
.
,
x
n
;
θ
)
=
∏
i
=
1
n
p
(
x
i
;
θ
)
L(\theta)=L(x_1,x_2,x_3...,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta)
L(θ)=L(x1,x2,x3...,xn;θ)=i=1∏np(xi;θ)
又称为似然函数。
若使用连续性随机变量其联合概率分布是:
∏
i
=
1
n
f
(
x
i
;
θ
)
d
x
i
\prod_{i=1}^{n}f(x_i;\theta)dx_i
i=1∏nf(xi;θ)dxi
其中
f
(
x
i
;
θ
)
f(x_i;\theta)
f(xi;θ)为概率密度函数,
d
x
i
dx_i
dxi为领域长度。由于
d
x
i
dx_i
dxi与
θ
\theta
θ无关,所以只需考虑概率密度函数。所以似然函数为:
L
(
θ
)
=
L
(
x
1
,
x
2
,
x
3
.
.
.
,
x
n
;
θ
)
=
∏
i
=
1
n
f
(
x
i
;
θ
)
L(\theta)=L(x_1,x_2,x_3...,x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta)
L(θ)=L(x1,x2,x3...,xn;θ)=i=1∏nf(xi;θ)
又于先入为主观念,最大似然法认为当前已知的样本,具有最大的概率发生。反过来说也就是,最大似然法认为,
θ
\theta
θ的估计值是使得当前已知样本具有最大概率发生(即
X
1
=
x
1
,
X
2
=
x
2
,
X
3
=
x
3
.
.
.
,
X
n
=
x
n
X_1=x_1,X_2=x_2,X_3=x_3...,X_n=x_n
X1=x1,X2=x2,X3=x3...,Xn=xn)的那个
θ
\theta
θ值,记作
θ
^
\hat{\theta}
θ^:
L
(
x
1
,
x
2
,
x
3
.
.
.
,
x
n
;
θ
^
)
=
m
a
x
θ
L
(
x
1
,
x
2
,
x
3
.
.
.
,
x
n
;
θ
)
L(x_1,x_2,x_3...,x_n;\hat{\theta})=\begin{matrix} &max\\ &\theta \end{matrix} L(x_1,x_2,x_3...,x_n;\theta)
L(x1,x2,x3...,xn;θ^)=maxθL(x1,x2,x3...,xn;θ)
这样得到的
θ
^
\hat\theta
θ^称为
θ
\theta
θ最大似然估计值。
这样最大似然估计值的求解就变为了一个求极值的过程。即从:
d
d
θ
L
(
θ
)
=
0
\frac{d}{d\theta}L(\theta)=0
dθdL(θ)=0或者
d
d
θ
l
n
L
(
θ
)
=
0
\frac{d}{d\theta}lnL(\theta)=0
dθdlnL(θ)=0求得
通常后者比前者更容易求解,称为对数似然方程,
l
n
(
L
(
θ
)
)
ln(L(\theta))
ln(L(θ))称为对数似然函数。似然函数和对数似然函数可以乘上常数,任然是似然函数。
参考书1:概率论与数理统计 浙江大学 第四版
参考书2:统计学习方法 李航