1.引入概念
最大似然估计是建立在最大似然原理的基础之上。最大似然原理的直观理解是:设一个随机试验有若干个可能的结果 A1,A2,...,An ,在一次试验中,结果 Ak 出现,则一般认为实验对 Ak 的出现最有利,即 Ak 出现的概率较大。这里用到了”概率最大的事件最可能出现”的直观想法,然后对 Ak 出现的概率公式求极大值,这样便可解未知参数。下面用一个例子说明最大似然估计的思想方法。
假设一个服从离散型分布的总体X,不妨设
X∼B(4,p)
,其中参数
p
未知.现抽取容量为3的样本,
P(x=k)=Ckn∗pk∗(1−p)n−k
(1.1)
考虑这样一个问题,为什么样本结果是1,2,1,而不是另外一组
x1,x2,x3
呢?设事件
A={X1=1,X2=2,X3=1}
,事件
B={X1=x1,X2=x2,X3=x3}
,应用概率论的思想,大概率事件发生的可能性比小概率事件发生的可能性要大,即A发生的概率较大,套用公式1.1可以得出:
P(A)=C14p(1−p)3∗C24p2(1−p)2∗C14p(1−p)3=96p4(1−p)8
应该让P(A)的取值应该尽可能大。对P(A)进行求导取极值可知,当p=1/3时,P(A)取到最大值,所有有理由认为p=1/3有利于事件A发生,所有p应该取值为1/3比较合理。
2.给出似然函数定义
设
X1,X2,...,Xn
为来自总体
X
的简单随机样本,
为参数 θ 的似然函数。其中,当总体 X 为离散型随机变量时,
参数
θ
的似然函数
L(θ)
实际上就是样本
X1,X2,...,Xn
恰好取观察值
x1,x2,...,xn(或其领域)
的概率。如果总体
X
为离散型随机变量时,
如果总体 X 为连续性型随机变量,由于当
P{xi−Δxi2<Xi<xi+Δxi2}=P{xi−Δxi2<X<xi+Δxi2}=∫xi+Δxi2xi−Δxi2f(x,θ)dx≈f(xi,θ)∗Δxi
于是
P{x1−Δx12<X1<x1+Δx12,x2−Δx22<X2<x2+Δx22,...,xn−Δxn2<Xn<xn+Δxn2}=
注意我们求的是样本落在区间 [xi−Δxi,xi+Δxi] 的概率,而不是样本落在点 xi 的概率,现在我们求出了落在区间的概率为
又该区间的概率应该近视等于 P{X=xi}∗Δxi ,即用点 xi 的发生概率代表区间平均概率密度,所以 L(θ) 代表的是一组点对应的概率的乘积,即样本 X1,X2,...,Xn 落在观测值 x1,x2,...,xn 附近的概率。
3.最大似然估计
设
L(θ^)=maxL(θ)
则称 θ^(x1,x2,...,xn) 为参数 θ 的最大似然估计值,称 θ^(X1,X2,...,Xn) 为参数 θ 的最大估计量。 注意 θ^(x1,x2,...,xn) 仅仅是一个实数值,后面带的 (x1,x2,...,xn) 表示这个值的取值与它们有关。
由上可知,所谓最大似然估计是指通过求似然函数 L(θ) 的最大(或极大)值点来估计参数 θ 的一种方法。 另外,最大似然估计对总体中未知参数的个数没有要求,可以求一个未知参数的最大似然估计,也可以一次求多个未知参数的最大似然估计,这个通过对多个未知参数求偏导来实现,因为多变量极值就是偏导运算。需要注意的是,似然函数 L(θ) 不一定有极大值点,但是未必没有最大值点,所以对于有些问题,求导求极大值可能会失效,这时需要考虑边界点。