深入浅出极大似然估计法

之前多次接触极大似然估计,一直没有透彻的理解清楚,下午特意抽空查阅资料,整理成一篇较为通俗易懂的博文。

概念
  “似然” ( likelihood )可以通俗的理解成 ”像是这样“ ,意思为 ”事件(观察数据)发生的可能性“,”极大似然估计“ 就是要找到一个估计值,使得 ”事件发生的可能性“ 最大。

举个例子
黑白球
  如图,有两个外形完全相同的箱子。甲箱中有99个白球1个黑球,乙箱中有99个黑球1个白球。一次试验,取出的是黑球。 那么这个黑球最像是从哪个箱子取出的?大多数人都会说,这个黑球最像是从乙箱中取出的,这个推断符合人们的经验,即为“最大似然”。

总结来说,最大似然估计 假设模型是确定的,然后利用抽取的样本结果,反推最大概率导致这样结果的模型参数值,即:“模型已定,参数未知”。

因此,样本结果的概率(即事件发生的可能性),是一个带模型参数的似然函数。最大似然估计法的目标就是最大化似然函数,用最优化算法求解 导致样本结果概率最大的参数值。

极大似然估计的描述
  极大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。

首先,假设$ x_1,x_2,…,x_n$为独立同分布的采样,θ为模型参数, f 为所使用的模型。因此,产生上述采样结果的概率可表示为:

f ( x 1 , x 2 , . . . , x n ∣ θ ) = f ( x 1 ∣ θ ) ∗ f ( x 2 ∣ θ ) . . . , f ( x n ∣ θ ) f(x_1,x_2,...,x_n|\theta) = f(x_1|\theta)*f(x_2|\theta)...,f(x_n|\theta) f(x1,x2,...,xnθ)=f(x1θ)f(x2θ)...,f(xnθ)

由于极大似然估计法中,我们已知的为$ x_1,x_2,…,x_n$,未知为θ,故似然函数定义为:

L ( θ ∣ x 1 , . . . , x n ) = f ( x 1 , . . . , x n ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) L(\theta|x_1,...,x_n) = f(x_1,...,x_n|\theta)=\prod_{i=1}^{n}f(x_i|\theta) L(θx1,...,xn)=f(x1,...,xnθ)=i=1nf(xiθ)

两边取对数,得到对数似然,公式为:

l n L ( θ ∣ x 1 , . . . , x n ) = l n ∏ i = 1 n f ( x i ∣ θ ) = ∑ i = 1 n l n f ( x i ∣ θ ) ln L(\theta|x_1,...,x_n) = ln \prod_{i=1}^{n}f(x_i|\theta) = \sum_{i=1}^nln f(x_i|\theta) lnL(θx1,...,xn)=lni=1nf(xiθ)=i=1nlnf(xiθ)

最大似然估计法最常用的为对数平均似然,公式为:

l ^ = 1 n ln ⁡ L ( θ ∣ x 1 , . . . , x n ) \hat{l} = \frac1{n}\ln L(\theta|x_1,...,x_n) l^=n1lnL(θx1,...,xn)

因此最大似然估计法就是 最大化似然函数求参数值,即:

θ ^ m l e = a r g m a x θ ∈ Θ l ^ ( θ ∣ x 1 , . . . , x n ) \hat{\theta}_{mle} = argmax_{\theta\in\Theta} \hat{l}(\theta|x_1,...,x_n) θ^mle=argmaxθΘl^(θx1,...,xn)

极大似然估计的例子
  我们假设已知的模型为正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),则似然函数为:

L ( μ , σ 2 ) = ∏ i = 1 n f ( x i ∣ θ ) = ∏ i = 1 n 1 2 π σ e − ( x i − μ ) 2 2 σ 2 = ( 2 π σ 2 ) − n 2 e − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 L(\mu,\sigma^2)=\prod_{i=1}^{n}f(x_i|\theta)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} =(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac1{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2} L(μ,σ2)=i=1nf(xiθ)=i=1n2π σ1e2σ2(xiμ)2=(2πσ2)2ne2σ21i=1n(xiμ)2

两边取对数,得对数似然函数为:

l n L ( μ , σ 2 ) = − n 2 l n ( 2 π ) − n 2 l n ( σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ln L(\mu,\sigma^2)=-\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\sigma^2)-\frac1{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2 lnL(μ,σ2)=2nln(2π)2nln(σ2)2σ21i=1n(xiμ)2

最大化似然函数,我们对它进行求导:

{ ∂ ln ⁡ L ( μ , σ 2 ) ∂ μ = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 ∂ ln ⁡ L ( μ , σ 2 ) ∂ σ 2 = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 \left\{\begin{array}{c}\frac{\partial\ln L(\mu,\sigma^2)}{\partial\mu}=\frac1{\sigma^2}\sum_{i=1}^{n}(x_i-\mu) = 0 \\ \frac{\partial\ln L(\mu,\sigma^2)}{\partial\sigma^2} = -\frac{n}{2\sigma^2}+\frac1{2\sigma^4}\sum_{i=1}^{n}(x_i-\mu)^2 = 0 \end{array}\right. {μlnL(μ,σ2)=σ21i=1n(xiμ)=0σ2lnL(μ,σ2)=2σ2n+2σ41i=1n(xiμ)2=0

联合解得:

{ μ ∗ = x ‾ = 1 n ∑ i = 1 n x i σ ∗ 2 = 1 n ∑ i = 1 n ( x i − x ‾ ) 2 \left\{\begin{array}{c}\mu^*=\overline{x}=\frac1{n}\sum_{i=1}^{n}x_i \\ \sigma^{*2}=\frac1{n}\sum_{i=1}^n(x_i-\overline{x})^2 \end{array}\right. {μ=x=n1i=1nxiσ2=n1i=1n(xix)2

似然方程有唯一解: ( μ ∗ , σ ∗ 2 ) (\mu^*,\sigma^{*2}) (μ,σ2),即为最大似然估计量 θ ^ \hat{\theta} θ^

因此,求最大似然估计量 θ ^ \hat{\theta} θ^的一般步骤为:

    (1)写出似然函数;

    (2)对似然函数取对数,并整理;

    (3)求导数;

    (4)解似然方程。

注意:

参数估计不同于估计。
  日常所说的估计一般是通过样本分布估计总体的分布,比如用样本集的均值作为总体的期望。在参数估计中,模型是假设已知的,估计得参数后就可得完整模型。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值