极大似然估计

最新推荐文章于 2022-05-15 15:46:27 发布

jk大懒猫

最新推荐文章于 2022-05-15 15:46:27 发布

阅读量340

点赞数

分类专栏：数学机器学习文章标签：概率论数理统计

本文链接：https://blog.csdn.net/u012074597/article/details/79713617

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

数学

5 篇文章 0 订阅

订阅专栏

设总体分布为 $f(x;\theta_1,\cdots,\theta_k)$ ， $X_1,\cdots,X_n$ 为自这个总体中抽出的样本，则样本 $(X_1,\cdots,X_n)$ 的分布（即其概率密度函数或概率函数）为

f (x 1; θ 1, \dots, θ k) f (x 2; θ 1, \dots, θ k) \dots f (x n; θ 1, \dots, θ k)

$f(x_1;\theta_1,\cdots,\theta_k)f(x_2;\theta_1,\cdots,\theta_k)\cdots f(x_n;\theta_1,\cdots,\theta_k)$
记为

L(x1,⋯,xn;θ1,⋯,θk) L ( x 1 , ⋯ , x n ; θ 1 , ⋯ , θ k ) $L(x_1,\cdots,x_n;\theta_1,\cdots,\theta_k)$ 。

固定 $\theta_1,\cdots,\theta_k$ ，而看做 $x_1,\cdots,x_n$ 的函数时，L是一个概率密度函数或者概率函数。可以这样理解：若 $L(Y_1,\cdots,Y_n;\theta_1,\cdots,\theta_k)\gt L(X_1,\cdots,X_n;\theta_1,\cdots,\theta_k)$ ，则在观察时出现 $(Y_1,\cdots,Y_n)$ 这个点的可能性要比出现 $X_1,\cdots,X_n$ 这个点的可能性大。把这件事反过来说，可以这样想：当已观察到 $X_1,\cdots,X_n$ 时，若 $L(X_1,\cdots,X_n;\theta_1',\cdots,\theta_k')\gt L(X_1,\cdots,X_n;\theta_1'',\cdots,\theta_k'')$ ，则被估计的参数 $(\theta_1,\cdots,\theta_k)$ 是 $(\theta_1',\cdots,\theta_k')$ 的可能性要比它是 $(\theta_1'',\cdots,\theta_k'')$ 的可能性大。

当 $(X_1,\cdots,X_n)$ 固定而把L看做 $(\theta_1,\cdots,\theta_k)$ 的函数时，它成为“似然函数”。这个名称的意义，可根据上述分析得到理解：这个函数对不同的 $(\theta_1,\cdots,\theta_k)$ 的取值，反映了在观察结果 $(X_1,\cdots,X_n)$ 已知的条件下， $(\theta_1,\cdots,\theta_k)$ 的各种值的“似然程度”。注意，这里有些像贝叶斯公式中的推理：把观察值 $(X_1,\cdots,X_n)$ 看成结果，而把参数 $(\theta_1,\cdots,\theta_k)$ 看成是导致这个结果的原因。现已有了结果，要反过来推算各种原因的概率。这里，参数 $(\theta_1,\cdots,\theta_k)$ 有一定的值（虽然未知），并非事件或随机变量，无概率可言，于是就改用“似然”这个词。

由上述分析就自然地导致如下的方法：应该用似然程度最大的那个点 $(\theta_1^*,\cdots,\theta_k^*)$ ，即满足条件

L (X 1, \dots, X n; θ * 1, \dots, θ * k) = max θ 1, \dots, θ k L (X 1, \dots, X n; θ 1, \dots, θ k)

$L(X_1,\cdots,X_n;\theta_1^*,\cdots,\theta_k^*)=\max_{\theta_1,\cdots,\theta_k}L(X_1,\cdots,X_n;\theta_1,\cdots,\theta_k)$
的

(θ∗1,⋯,θ∗k) ( θ 1 ∗ , ⋯ , θ k ∗ ) $(\theta_1^*,\cdots,\theta_k^*)$ 去做

(θ1,⋯,θk) ( θ 1 , ⋯ , θ k ) $(\theta_1,\cdots,\theta_k)$ 的估计值，因为在已得的样本

X1,⋯,Xn X 1 , ⋯ , X n $X_1,\cdots,X_n$ 的条件下，这个看起来最像是真参数值。这个估计

(θ∗1,⋯,θ∗k) ( θ 1 ∗ , ⋯ , θ k ∗ ) $(\theta_1^*,\cdots,\theta_k^*)$ 就叫做

(θ1,⋯,θk) ( θ 1 , ⋯ , θ k ) $(\theta_1,\cdots,\theta_k)$ 的“极大似然估计”。如果要估计的是

g(θ1,⋯,θk) g ( θ 1 , ⋯ , θ k ) $g(\theta_1,\cdots,\theta_k)$ ，则

g(θ∗1,⋯,θ∗k) g ( θ 1 ∗ , ⋯ , θ k ∗ ) $g(\theta_1^*,\cdots,\theta_k^*)$ 是它的极大似然估计。

因为连乘不好计算，而且取对数并不改变取最大的目的，所以通常会对似然函数取对数。

ln L = \sum i = 1 n ln f (X i; θ 1, \dots, θ k)

$\ln{L}=\sum_{i=1}^n\ln{f(X_i;\theta_1,\cdots,\theta_k)}$
故在f对

θ1,⋯,θk θ 1 , ⋯ , θ k $\theta_1,\cdots,\theta_k$ 存在连续的偏导数时，可建立方程组（称为似然方程组）：

\partial ln ( L ) \partial θ i = 0 (i = 1, \dots, k)

$\frac{\partial{\ln(L)}}{\partial{\theta_i}}=0\quad(i=1,\cdots,k)$
如果这个方程组有唯一解，又能验证它是一个极大值点，则它必是使L达到最大的点，即极大似然估计。

例子

设 $X_1,\cdots,X_n$ 是从正态总体分布 $N(\mu,\delta^2)$ 中抽出样本，则似然函数为：

L = \prod i = 1 n [(2 π δ 2 ‾ ‾ ‾ ‾ ‾ \sqrt) - 1 exp (- 1 2 δ 2 (X i - μ) 2)]

$L=\prod_{i=1}^n[(\sqrt{2\pi\delta^2})^{-1}\exp(-\frac{1}{2\delta^2}(X_i-\mu)^2)]$
故

ln L = - n 2 ln 2 π - n 2 ln (δ 2) - 1 2 δ 2 \sum i = 1 n (X i - μ) 2

$\ln{L}=-\frac{n}{2}\ln{2\pi}-\frac{n}{2}\ln(\delta^2)-\frac{1}{2\delta^2}\sum_{i=1}^n(X_i-\mu)^2$
求解方程组（把

δ2 δ 2 $\delta^2$ 作为一个整体看）：

\partial ln L \partial μ = 1 δ 2 \sum i = 1 n (X i - μ) = 0

$\frac{\partial\ln{L}}{\partial\mu}=\frac1{\delta^2}\sum_{i=1}^n(X_i-\mu)=0$

\partial ln L \partial ( δ 2 ) = - n 2 δ 2 + 1 2 δ 4 \sum i = 1 n (X i - μ) 2 = 0

$\frac{\partial\ln{L}}{\partial(\delta^2)}=-\frac{n}{2\delta^2}+\frac1{2\delta^4}\sum_{i=1}^n(X_i-\mu)^2=0$
由第一式得出

μ μ $\mu$ 的解为

μ * = \sum i = 1 n X i / n = X ⎯ ⎯ ⎯ ⎯

$\mu^*=\sum_{i=1}^n X_i/n=\overline X$
以此代入第二式中，得到

δ2 δ 2 $\delta^2$ 的解为

δ * 2 = \sum i = 1 n (X i - X ⎯ ⎯ ⎯ ⎯) 2 / n = m 2

$\delta^{*2}=\sum_{i=1}^{n}(X_i-\overline X)^2/n=m_2$

我们看到： $\mu$ 与 $\delta^2$ 的极大似然估计 $\mu^*$ 和 $\delta^{*2}$ 与其矩估计完全一样。在本例中，容易肯定 $(\mu^*,\delta^{*2})$ 确是使似然函数L达到最大值的点。

矩估计与极大似然估计在多数情况下一致。也有这样的情况，用两个估计方法都行不通或不易实行。

统计推断问题的解，往往可以从许多看来都合理的途径去考虑，并无一成不变的方法，不同解固然有优劣之分，但这种优劣也是相对于一定的准则而言，并无绝对的价值。下述情况也并不罕见：估计甲在某一准则下优于乙，而乙又在另一准则下优于甲。

极大似然估计法的思想，始于高斯的误差理论，到1912年由Fisher在一篇论文中把它作为一个一般的估计方法提出来。自20世纪20年代以来，Fisher自己及许多统计学家对这一估计方法进行了大量的研究。总的结论是：在各种估计方法中，相对来说它一般更为优良，但在个别情况下也给出很不理想的结果。与矩估计方法不同，极大似然估计法要求分布有参数的形式。比如说，要对总体分布毫无所知而要估计其均值、方差，极大似然法就无能为力。

参考书目
《概率论与数理统计》——陈希孺