人工智能里的数学修炼 | 模型参数求解:极大似然估计

极大似然估计(maximum likelihood estimation,mle)方法最初由德国数学家高斯提出,但这个方法通常被归功于英国统计学家罗纳德·菲舍尔。他在1992年的论文On the mathematical foundations of theoretical statistics, reprinted in Contributions to Mathematical Statistics总结了极大似然估计,极大似然估计的名字也是费舍尔给的。1950年 J. Wiley & Sons 中再次提出了这个思想,并且首先探讨了这种方法的一些性质,目前,这仍然是一种得到广泛应用的参数估计方法

一、极大似然估计原理

极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已知,参数未知“。其直接原理是:一个随机试验如果有若干个可能的结果A,B,C,…,若在一次实验中,结果A出现了,那么可以认为实验条件对A的出现有利,即A事件发生的概率P(A)较大。

举一个简单的例子:
设甲箱中有99个白球,1个黑球;乙箱中有1个白球,99个黑球。现随机取出一个箱子,再从抽取的一箱中随机取出一球,结果是黑球,我们知道,这一球是从乙箱抽取的概率比从甲箱中抽取的概率大的多,这时我们自然更多的愿意相信这个黑球是取自乙箱的。
更一般的来说,若事件A的发生概率与某一未知参数 θ \theta θ 有关, θ \theta θ 取值不同,则事件A发生的概率 P ( A ∣ θ ) P(A|\theta) P(Aθ) 也不同,当我们在一次试验中,若事件A发生了,则此时认为 θ \theta θ 值应是一切可能取值中使 P ( A ∣ θ ) P(A|\theta) P(Aθ) 最大的那一个,极大似然估计法就是要选取这样的值作为参数的估计值

极大似然估计,是概率论在统计学中的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
极大似然估计一个很重要的假设是:所有采样都是独立同分布的

二、极大似然的数学模型与求解

极大似然估计的一般求解步骤为:
(1)写出似然函数
(2)取平均对数似然函数
(3)求解似然估计值
现在我们分步来介绍

2.1 列出似然函数

首先,假设 x 1 , x 2 , . . . , x n x_{1},x_{2},...,x_{n} x1,x2,...,xn 为独立同分布的采样, θ \theta θ为模型参数, f f f 为我们所用的模型。则参数为 θ \theta θ 的模型 f f f 产生上述采样可表示为

f ( x 1 , x 2 , . . . , x n ∣ θ ) = f ( x 1 ∣ θ ) × f ( x 2 ∣ θ ) × ⋅ ⋅ ⋅ × f ( x n ∣ θ ) f(x_{1},x_{2},...,x_{n}|\theta) = f(x_{1}|\theta) \times f(x_{2}|\theta) \times···\times f(x_{n}|\theta) f(x1,x2,...,xnθ)=f(x1θ)×f(x2θ)××f(xnθ)

此时,我们已知的为 x 1 , x 2 , . . . , x n x_{1},x_{2},...,x_{n} x1,x2,...,xn,未知的为 θ \theta θ。现定义似然函数为
L ( θ ∣ x 1 , x 2 , . . . , x n ) = f ( x 1 , x 2 , . . . , x n ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) L(\theta|x_{1},x_{2},...,x_{n}) = f(x_{1},x_{2},...,x_{n}|\theta) = \prod_{i = 1}^{n}f(x_{i}|\theta) L(θx1,x2,...,xn)=f(x1,x2,...,xnθ)=i=1nf(xiθ)

2.2 取平均对数似然函数

在实际应用中我们通常将似然函数取对数

l n L ( θ ∣ x 1 , x 2 , . . . , x n ) = ∑ i = 1 n l n f ( x i ∣ θ ) lnL(\theta|x_{1},x_{2},...,x_{n}) = \sum_{i = 1}^{n}lnf(x_{i}|\theta) lnL(θx1,x2,...,xn)=i=1nlnf(xiθ)

我们称上式中的 l n L lnL lnL 为对数似然函数, L ˉ = 1 n l n L \bar{L} = \frac{1}{n}lnL Lˉ=n1lnL 为平均对数似然,而我们平时所称的对数似然为最大的平均对数似然,即
θ ˉ m l e = a r g m a x L ˉ ( θ ∣ x 1 , x 2 , . . . , x n ) \bar{\theta}_{mle} = arg max \bar{L}(\theta|x_{1},x_{2},...,x_{n}) θˉmle=argmaxLˉ(θx1,x2,...,xn)

选择似然函数在观测值最大处的那个参数值作为 θ \theta θ 的估计。以上为离散型随机变量的极大似然估计,若总体为连续性,则可以使用其概率密度函数构建似然函数。
极大似然估计法的原理就是固定样本观测值 ( x 1 , x 2 , . . . , x n ) (x_{1},x_{2},...,x_{n}) (x1,x2,...,xn) ,挑选参数 θ \theta θ 使

L ( x 1 , x 2 , . . , x n ∣ θ ˉ ) = m a x L ( x 1 , x 2 , . . , x n ∣ θ ) L(x_{1},x_{2},..,x_{n}|\bar{\theta}) = max L(x_{1},x_{2},..,x_{n}|\theta) L(x1,x2,..,xnθˉ)=maxL(x1,x2,..,xnθ)

这样得到的 θ ˉ \bar{\theta} θˉ 与样本值有关, θ ˉ ( x 1 , x 2 , . . . , x n ) \bar{\theta}(x_{1},x_{2},...,x_{n}) θˉ(x1,x2,...,xn)称为参数 θ \theta θ 的极大似然估计值

2.3 求解似然估计值

现在我们已经列出了似然方程,问题在于如何把参数 θ \theta θ 的极大似然估计值 θ ˉ \bar{\theta} θˉ求出。在大多数场合下,我们可以通过用平均对数似然方程对 θ \theta θ 求导从而获得极值点,即求解

∂ l n L ˉ ( θ ) ∂ θ = 0 \frac{\partial ln\bar{L}(\theta) }{\partial \theta} = 0 θlnLˉ(θ)=0

通过极大似然法估计参数的特点在于,它 相对于其他估计方法更为简单,收敛性质较好,并且如果假设的类条件概率模型正确,则通常能获得较好的结果,但如果假设模型出现偏差,则会导致结果较差

三、更多资源下载

微信搜索“老和山算法指南”获取更多下载链接与技术交流群
在这里插入图片描述
有问题可以私信博主,点赞关注的一般都会回复,一起努力,谢谢支持。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Liangjun_Feng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值