首先,要明确最大似然估计的作用。最大似然估计是用来估计参数的,是在已知所有样本数据和样本数据的分布形式的情况下,来估计分布的具体参数的。举个例子,我们知道有数据 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ ( x 100 , y 100 ) (x_1,y_1),(x_2,y_2),\cdots (x_{100},y_{100}) (x1,y1),(x2,y2),⋯(x100,y100)这100组数据满足 y = a x + b y=ax+b y=ax+b的线性分布,现在要计算 a a a和 b b b,那么这个过程就是参数估计过程。一定不要弄混了。
最大似然估计的基本思想是,总体
X
X
X是离散型的,且分布律是
P
{
X
=
x
}
=
p
(
x
;
θ
)
P\{X=x\}=p(x;\theta)
P{X=x}=p(x;θ),
θ
∈
Θ
\theta\in \Theta
θ∈Θ的形式是已知的,
Θ
\Theta
Θ是
θ
\theta
θ可能的取值范围。设
X
1
,
X
2
,
⋯
 
,
X
n
X_1,X_2,\cdots, X_n
X1,X2,⋯,Xn是来自总体
X
X
X的样本,因为是独立取样的,所以他们的联合分布概率是
Π
i
=
1
n
p
(
x
i
;
θ
)
,
θ
∈
Θ
\Pi_{i=1}^{n}p(x_i;\theta),\theta\in \Theta
Πi=1np(xi;θ),θ∈Θ
令
L
(
θ
)
=
L
(
x
1
,
x
2
,
⋯
 
,
x
n
;
θ
)
=
Π
i
=
1
n
p
(
x
i
;
θ
)
,
θ
∈
Θ
L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\Pi_{i=1}^{n}p(x_i;\theta),\theta\in \Theta
L(θ)=L(x1,x2,⋯,xn;θ)=Πi=1np(xi;θ),θ∈Θ
这个概率的取值随着
θ
\theta
θ变化而变化,
L
(
x
,
θ
)
L(x,\theta)
L(x,θ)是似然估计函数。那么求出
θ
\theta
θ最有可能的值的过程就是最大似然估计的过程。最大似然估计的
θ
\theta
θ必然满足:
L
(
x
1
,
x
2
,
⋯
 
,
x
n
;
θ
)
=
m
a
x
θ
∈
Θ
L
(
x
1
,
x
2
,
⋯
 
,
x
n
;
θ
)
L(x_1,x_2,\cdots,x_n;\theta)=max_{\theta\in \Theta}L(x_1,x_2,\cdots,x_n;\theta)
L(x1,x2,⋯,xn;θ)=maxθ∈ΘL(x1,x2,⋯,xn;θ)
这样做的理由是,当前一次性取得的 x 1 , ⋯   , x n x_1,\cdots,x_n x1,⋯,xn肯定是概率最大的一种情况,那么必然要求出 θ \theta θ使得 L ( x ; θ ) L(x;\theta) L(x;θ)的值最大,所以这么求解。
假设函数是可微的,那么
d
d
θ
ln
Θ
=
0
\frac{d}{d\theta}\ln{\Theta}=0
dθdlnΘ=0
是一个参数方程,求出参数方程即可。取对数是为了求导计算方便,同时又不失单调性。