极大似然估计

设总体分布为 f(x;θ1,,θk) f ( x ; θ 1 , ⋯ , θ k ) X1,,Xn X 1 , ⋯ , X n 为自这个总体中抽出的样本,则样本 (X1,,Xn) ( X 1 , ⋯ , X n ) 的分布(即其概率密度函数或概率函数)为

f(x1;θ1,,θk)f(x2;θ1,,θk)f(xn;θ1,,θk) f ( x 1 ; θ 1 , ⋯ , θ k ) f ( x 2 ; θ 1 , ⋯ , θ k ) ⋯ f ( x n ; θ 1 , ⋯ , θ k )

记为 L(x1,,xn;θ1,,θk) L ( x 1 , ⋯ , x n ; θ 1 , ⋯ , θ k )

固定 θ1,,θk θ 1 , ⋯ , θ k ,而看做 x1,,xn x 1 , ⋯ , x n 的函数时,L是一个概率密度函数或者概率函数。可以这样理解:若 L(Y1,,Yn;θ1,,θk)>L(X1,,Xn;θ1,,θk) L ( Y 1 , ⋯ , Y n ; θ 1 , ⋯ , θ k ) > L ( X 1 , ⋯ , X n ; θ 1 , ⋯ , θ k ) ,则在观察时出现 (Y1,,Yn) ( Y 1 , ⋯ , Y n ) 这个点的可能性要比出现 X1,,Xn X 1 , ⋯ , X n 这个点的可能性大。把这件事反过来说,可以这样想:当已观察到 X1,,Xn X 1 , ⋯ , X n 时,若 L(X1,,Xn;θ1,,θk)>L(X1,,Xn;θ1,,θk) L ( X 1 , ⋯ , X n ; θ 1 ′ , ⋯ , θ k ′ ) > L ( X 1 , ⋯ , X n ; θ 1 ″ , ⋯ , θ k ″ ) ,则被估计的参数 (θ1,,θk) ( θ 1 , ⋯ , θ k ) (θ1,,θk) ( θ 1 ′ , ⋯ , θ k ′ ) 的可能性要比它是 (θ1,,θk) ( θ 1 ″ , ⋯ , θ k ″ ) 的可能性大。

(X1,,Xn) ( X 1 , ⋯ , X n ) 固定而把L看做 (θ1,,θk) ( θ 1 , ⋯ , θ k ) 的函数时,它成为“似然函数”。这个名称的意义,可根据上述分析得到理解:这个函数对不同的 (θ1,,θk) ( θ 1 , ⋯ , θ k ) 的取值,反映了在观察结果 (X1,,Xn) ( X 1 , ⋯ , X n ) 已知的条件下, (θ1,,θk) ( θ 1 , ⋯ , θ k ) 的各种值的“似然程度”。注意,这里有些像贝叶斯公式中的推理:把观察值 (X1,,Xn) ( X 1 , ⋯ , X n ) 看成结果,而把参数 (θ1,,θk) ( θ 1 , ⋯ , θ k ) 看成是导致这个结果的原因。现已有了结果,要反过来推算各种原因的概率。这里,参数 (θ1,,θk) ( θ 1 , ⋯ , θ k ) 有一定的值(虽然未知),并非事件或随机变量,无概率可言,于是就改用“似然”这个词。

由上述分析就自然地导致如下的方法:应该用似然程度最大的那个点 (θ1,,θk) ( θ 1 ∗ , ⋯ , θ k ∗ ) ,即满足条件

L(X1,,Xn;θ1,,θk)=maxθ1,,θkL(X1,,Xn;θ1,,θk) L ( X 1 , ⋯ , X n ; θ 1 ∗ , ⋯ , θ k ∗ ) = max θ 1 , ⋯ , θ k L ( X 1 , ⋯ , X n ; θ 1 , ⋯ , θ k )

(θ1,,θk) ( θ 1 ∗ , ⋯ , θ k ∗ ) 去做 (θ1,,θk) ( θ 1 , ⋯ , θ k ) 的估计值,因为在已得的样本 X1,,Xn X 1 , ⋯ , X n 的条件下,这个看起来最像是真参数值。这个估计 (θ1,,θk) ( θ 1 ∗ , ⋯ , θ k ∗ ) 就叫做 (θ1,,θk) ( θ 1 , ⋯ , θ k ) 的“极大似然估计”。如果要估计的是 g(θ1,,θk) g ( θ 1 , ⋯ , θ k ) ,则 g(θ1,,θk) g ( θ 1 ∗ , ⋯ , θ k ∗ ) 是它的极大似然估计。

因为连乘不好计算,而且取对数并不改变取最大的目的,所以通常会对似然函数取对数。

lnL=i=1nlnf(Xi;θ1,,θk) ln ⁡ L = ∑ i = 1 n ln ⁡ f ( X i ; θ 1 , ⋯ , θ k )

故在f对 θ1,,θk θ 1 , ⋯ , θ k 存在连续的偏导数时,可建立方程组(称为似然方程组):
ln(L)θi=0(i=1,,k) ∂ ln ⁡ ( L ) ∂ θ i = 0 ( i = 1 , ⋯ , k )

如果这个方程组有唯一解,又能验证它是一个极大值点,则它必是使L达到最大的点,即极大似然估计。

例子

X1,,Xn X 1 , ⋯ , X n 是从正态总体分布 N(μ,δ2) N ( μ , δ 2 ) 中抽出样本,则似然函数为:

L=i=1n[(2πδ2)1exp(12δ2(Xiμ)2)] L = ∏ i = 1 n [ ( 2 π δ 2 ) − 1 exp ⁡ ( − 1 2 δ 2 ( X i − μ ) 2 ) ]


lnL=n2ln2πn2ln(δ2)12δ2i=1n(Xiμ)2 ln ⁡ L = − n 2 ln ⁡ 2 π − n 2 ln ⁡ ( δ 2 ) − 1 2 δ 2 ∑ i = 1 n ( X i − μ ) 2

求解方程组(把 δ2 δ 2 作为一个整体看):
lnLμ=1δ2i=1n(Xiμ)=0 ∂ ln ⁡ L ∂ μ = 1 δ 2 ∑ i = 1 n ( X i − μ ) = 0

lnL(δ2)=n2δ2+12δ4i=1n(Xiμ)2=0 ∂ ln ⁡ L ∂ ( δ 2 ) = − n 2 δ 2 + 1 2 δ 4 ∑ i = 1 n ( X i − μ ) 2 = 0

由第一式得出 μ μ 的解为
μ=i=1nXi/n=X μ ∗ = ∑ i = 1 n X i / n = X ¯

以此代入第二式中,得到 δ2 δ 2 的解为
δ2=i=1n(XiX)2/n=m2 δ ∗ 2 = ∑ i = 1 n ( X i − X ¯ ) 2 / n = m 2

我们看到: μ μ δ2 δ 2 的极大似然估计 μ μ ∗ δ2 δ ∗ 2 与其矩估计完全一样。在本例中,容易肯定 (μ,δ2) ( μ ∗ , δ ∗ 2 ) 确是使似然函数L达到最大值的点。

矩估计与极大似然估计在多数情况下一致。也有这样的情况,用两个估计方法都行不通或不易实行。

统计推断问题的解,往往可以从许多看来都合理的途径去考虑,并无一成不变的方法,不同解固然有优劣之分,但这种优劣也是相对于一定的准则而言,并无绝对的价值。下述情况也并不罕见:估计甲在某一准则下优于乙,而乙又在另一准则下优于甲。

极大似然估计法的思想,始于高斯的误差理论,到1912年由Fisher在一篇论文中把它作为一个一般的估计方法提出来。自20世纪20年代以来,Fisher自己及许多统计学家对这一估计方法进行了大量的研究。总的结论是:在各种估计方法中,相对来说它一般更为优良,但在个别情况下也给出很不理想的结果。与矩估计方法不同,极大似然估计法要求分布有参数的形式。比如说,要对总体分布毫无所知而要估计其均值、方差,极大似然法就无能为力。

参考书目
《概率论与数理统计》——陈希孺

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值