设总体分布为
f(x;θ1,⋯,θk)
f
(
x
;
θ
1
,
⋯
,
θ
k
)
,
X1,⋯,Xn
X
1
,
⋯
,
X
n
为自这个总体中抽出的样本,则样本
(X1,⋯,Xn)
(
X
1
,
⋯
,
X
n
)
的分布(即其概率密度函数或概率函数)为
记为 L(x1,⋯,xn;θ1,⋯,θk) L ( x 1 , ⋯ , x n ; θ 1 , ⋯ , θ k ) 。
固定 θ1,⋯,θk θ 1 , ⋯ , θ k ,而看做 x1,⋯,xn x 1 , ⋯ , x n 的函数时,L是一个概率密度函数或者概率函数。可以这样理解:若 L(Y1,⋯,Yn;θ1,⋯,θk)>L(X1,⋯,Xn;θ1,⋯,θk) L ( Y 1 , ⋯ , Y n ; θ 1 , ⋯ , θ k ) > L ( X 1 , ⋯ , X n ; θ 1 , ⋯ , θ k ) ,则在观察时出现 (Y1,⋯,Yn) ( Y 1 , ⋯ , Y n ) 这个点的可能性要比出现 X1,⋯,Xn X 1 , ⋯ , X n 这个点的可能性大。把这件事反过来说,可以这样想:当已观察到 X1,⋯,Xn X 1 , ⋯ , X n 时,若 L(X1,⋯,Xn;θ′1,⋯,θ′k)>L(X1,⋯,Xn;θ″1,⋯,θ″k) L ( X 1 , ⋯ , X n ; θ 1 ′ , ⋯ , θ k ′ ) > L ( X 1 , ⋯ , X n ; θ 1 ″ , ⋯ , θ k ″ ) ,则被估计的参数 (θ1,⋯,θk) ( θ 1 , ⋯ , θ k ) 是 (θ′1,⋯,θ′k) ( θ 1 ′ , ⋯ , θ k ′ ) 的可能性要比它是 (θ″1,⋯,θ″k) ( θ 1 ″ , ⋯ , θ k ″ ) 的可能性大。
当 (X1,⋯,Xn) ( X 1 , ⋯ , X n ) 固定而把L看做 (θ1,⋯,θk) ( θ 1 , ⋯ , θ k ) 的函数时,它成为“似然函数”。这个名称的意义,可根据上述分析得到理解:这个函数对不同的 (θ1,⋯,θk) ( θ 1 , ⋯ , θ k ) 的取值,反映了在观察结果 (X1,⋯,Xn) ( X 1 , ⋯ , X n ) 已知的条件下, (θ1,⋯,θk) ( θ 1 , ⋯ , θ k ) 的各种值的“似然程度”。注意,这里有些像贝叶斯公式中的推理:把观察值 (X1,⋯,Xn) ( X 1 , ⋯ , X n ) 看成结果,而把参数 (θ1,⋯,θk) ( θ 1 , ⋯ , θ k ) 看成是导致这个结果的原因。现已有了结果,要反过来推算各种原因的概率。这里,参数 (θ1,⋯,θk) ( θ 1 , ⋯ , θ k ) 有一定的值(虽然未知),并非事件或随机变量,无概率可言,于是就改用“似然”这个词。
由上述分析就自然地导致如下的方法:应该用似然程度最大的那个点
(θ∗1,⋯,θ∗k)
(
θ
1
∗
,
⋯
,
θ
k
∗
)
,即满足条件
的 (θ∗1,⋯,θ∗k) ( θ 1 ∗ , ⋯ , θ k ∗ ) 去做 (θ1,⋯,θk) ( θ 1 , ⋯ , θ k ) 的估计值,因为在已得的样本 X1,⋯,Xn X 1 , ⋯ , X n 的条件下,这个看起来最像是真参数值。这个估计 (θ∗1,⋯,θ∗k) ( θ 1 ∗ , ⋯ , θ k ∗ ) 就叫做 (θ1,⋯,θk) ( θ 1 , ⋯ , θ k ) 的“极大似然估计”。如果要估计的是 g(θ1,⋯,θk) g ( θ 1 , ⋯ , θ k ) ,则 g(θ∗1,⋯,θ∗k) g ( θ 1 ∗ , ⋯ , θ k ∗ ) 是它的极大似然估计。
因为连乘不好计算,而且取对数并不改变取最大的目的,所以通常会对似然函数取对数。
故在f对 θ1,⋯,θk θ 1 , ⋯ , θ k 存在连续的偏导数时,可建立方程组(称为似然方程组):
如果这个方程组有唯一解,又能验证它是一个极大值点,则它必是使L达到最大的点,即极大似然估计。
例子
设
X1,⋯,Xn
X
1
,
⋯
,
X
n
是从正态总体分布
N(μ,δ2)
N
(
μ
,
δ
2
)
中抽出样本,则似然函数为:
故
求解方程组(把 δ2 δ 2 作为一个整体看):
由第一式得出 μ μ 的解为
以此代入第二式中,得到 δ2 δ 2 的解为
我们看到: μ μ 与 δ2 δ 2 的极大似然估计 μ∗ μ ∗ 和 δ∗2 δ ∗ 2 与其矩估计完全一样。在本例中,容易肯定 (μ∗,δ∗2) ( μ ∗ , δ ∗ 2 ) 确是使似然函数L达到最大值的点。
矩估计与极大似然估计在多数情况下一致。也有这样的情况,用两个估计方法都行不通或不易实行。
统计推断问题的解,往往可以从许多看来都合理的途径去考虑,并无一成不变的方法,不同解固然有优劣之分,但这种优劣也是相对于一定的准则而言,并无绝对的价值。下述情况也并不罕见:估计甲在某一准则下优于乙,而乙又在另一准则下优于甲。
极大似然估计法的思想,始于高斯的误差理论,到1912年由Fisher在一篇论文中把它作为一个一般的估计方法提出来。自20世纪20年代以来,Fisher自己及许多统计学家对这一估计方法进行了大量的研究。总的结论是:在各种估计方法中,相对来说它一般更为优良,但在个别情况下也给出很不理想的结果。与矩估计方法不同,极大似然估计法要求分布有参数的形式。比如说,要对总体分布毫无所知而要估计其均值、方差,极大似然法就无能为力。
参考书目
《概率论与数理统计》——陈希孺