本文摘自《机器学习》 周志华著 清华大学出版社
本文摘自《概率论与数理统计》 陈希孺著 中国科学技术大学出版社
极大似然估计
定义
设总体有分布
f(x;θ1,...,θk),X1,...,Xn
为自这个总体中抽出的样本,则样本
(X1,...,Xn)
的分布(即其概率密度函数或概率函数为)
f(x1;θ1,...,θk)f(x2;θ1,...,θk)...f(xn;θ1,...θk),
记为
L(x1,...,xn;θ1,...θk)。
固定
θ1,...,θk
,而看作
x1,...,xn
的函数时,
L
是一个概率密度函数或概率函数。可以这样理解:若
当
X1,...,Xn
固定而把
L
看做
由上述分析就自然地导致如下的方法:应该用似然程度最大的那个点
(θ∗1,...,θ∗k)
,即满足下面条件:
L(X1,...,Xn;θ∗1,...,θ∗k)=maxL(X1,...,Xn;θ1,...,θk)θ1,...,θk 公式(1)
的
(θ∗1,...,θ∗k)
去做
(θ1,...,θk)
的估计值,因为在已得到的样本
X1,...,Xn
的条件下,这个“看来最像”是真参数值。这个估计
(θ∗1,...θ∗n)
就叫做
(θ1,...,θn)
的“极大似然估计”。如果要估计的是
g(θ1,...,θk)
,则
g(θ∗1,...,θ∗n)
是它的极大似然估计。因为
lnL=∑ni=1lnf(Xi;θ1,...,θk),公式(2)
且为使
L
达到最大,只需使
∂lnL∂θi=0(i=1,...,k)公式(3)
如果这个方程组有唯一解,又能验证它是一个极大值点,则它必是使
L
达到最大的点,即最大似然估计。在几个常见的重要例子中,这一点不难验证。可是,在较复杂的场合,方程组(3)可以有不止一组解,求出这样的解很费计算,且不容易判定哪一个使
有时,函数
f
并不对
实例
上面讲的内容太抽象,那砸门来个例题来看看极大似然估计是如何解决问题。
考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(即,我们获取一个采样
P(H=49,T=31 | p=13)=(8049)(13)49×(1−13)31≈0.000
P(H=49,T=31 | p=12)=(8049)(12)49×(1−12)31≈0.012
P(H=49,T=31 | p=13)=(8049)(23)49×(1−23)31≈0.054
从上面的算式可以看出, p̂ =23 时,似然函数取得最大值,为0.054。
最大似然估计在各种分布中的运用
正态分布
设
X1,...,Xn
是从正态总体
N(μ,σ2)
中抽出的样本,则似然函数为:
L=∏i=1n[(2πσ2‾‾‾‾‾√)−1exp(−12σ2(Xi−μ)2]) ,公式(4)
故,
lnL=−n2ln(2π)−n2lnσ2−12σ2∑i=1n(Xi−μ)2
求方程组(3)(把
σ2
作为一个整体看)。
由第一式得出,
μ∗=∑i=1nXin=X¯ ,
由此带入式2中,得到
σ2
的解为:
σ∗2=∑i=1n(Xi−X¯)2n=m2
我们看到:
μ
和
σ
的极大似然估计
μ∗
和
σ∗
与其矩估计完全一样。在本例中,容易肯定
(μ∗,σ∗)
确是使似然函数
L
达到最大值得点。因为似然方程组只有唯一的根
指数分布
设
X1,...,Xn
是从指数分布总体中抽出的样本,求参数
λ
的极大似然估计。有
L=∏i=1n(λe−λXi) ,
故,
lnL=nlnλ−λ∑i=1nXi ,
解方程,
∂lnL∂λ=nλ−∑i=1nXi=0 ,
得
λ
的极大似然估计为
λ∗=n∑i=1nXi=1X⎯⎯ ,
仍与其矩估计一样。但是在这里,极大似然估计只有一个。
均匀分布
设
Xi,...,Xn
是从均匀分布
R(0,θ)
的总体中抽出的样本,求
θ
的极大似然估计。
当
0<Xi<θ
时,
Xi
的密度函数为
1θ
,此外为0。故似然函数
L
为
对固定的
X1,...,Xn
,此函数为
θ
的间断函数,故无法使用似然方程。但此例不难直接使用定义公式(1)去解决:为使
L
达到最大,
如果使用矩阵法,则因总体分布的均值为
θ2
,
θ
的矩估计为
θ̂ =2X⎯⎯⎯
。
柯西分布
设总体分布有密度函数
f(x,θ)=1π[1+(x−θ2)](−∞<x<∞)公式(5)
这个分布包含一个参数
θ
,
θ
可取任何实数值。这个分布叫做柯西分布,其密度作为
x
的函数,关于
现设
X1,...,XN
为自这个总体中抽出的样本,要估计
θ
。由于
∑i=1nXi−θ1+(Xi−θ)2=0,
这个方程有很多根,且求根不容易。因此,对本例而言,极大似然估计法也不是理想的方法。
为估计参数
θ
,有一个简答易行但考来合理的方法可用。这个方法基于
θ
是总体分布的中位数这个事实。既然如此,我们就要设法在样本
X1,...,Xn
中找到一种对应于中位数的东西。这个思想其实在矩估计法中已经使用过了,因为总体矩在样本中对应物就是样本矩。
现在把
X1,...,Xn
按由小到大顺序排成一列,得:
X(1)≤X(2)≤ ... ≤X(n) , 公式(6)
它们称为次序统计量。既然中位数是“居中”的意思,我们就在样本中找到居中者:
当
n
为奇数的时候,有一个居中者,为
就正态总体
N(μ,σ2)
而言,
μ
也是总体的中位数,故
μ
也可以用样本的中位数去估计。从这些例子中,我们看出一点:统计推断问题,往往可以从许多看来都合理的途径去考虑,并无一成不变的方法,不同解固然有优劣之分,但这种优劣也是相对于一定的准则而言,并无绝对的价值。下述情况也并非不常见:估计甲在某一准则下优于乙,而乙又在另一准则下优于甲。
注意
需要注意的是,这种参数变化的方法虽能使类条件使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中,欲做出能较好接近潜在真实分布的假设,往往需在一定程度上利用关于应用任务本身的经验知识,否则若仅凭“猜测”来假设概率分布形式,很可能产生误导性的结果。