极大似然估计

极大似然估计

贝叶斯决策

首先来看贝叶斯分类, 贝叶斯公式如下:

figure.1

其中 p(w) 为先验概率,表示每种类别分布的概率; p(x|w)为类条件概率, 表示在某种类别w的前提下, 某件事情x发生的概率; 而P(w|x) 为后验概率,表示某事x发生了,并且它属于某一类别w的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它x归到这个类别w下。

这样我们就可以根绝p(w) p(x) p(x|w)来计算出p(w|x)从而得到x的类别划分.

问题引出

但是在实际问题中并不都是这样幸运的, 我们能获得的数据可能只有有限数目的样本数据,而++先验概率p(w)和类条件概率(各类的总体分布)p(x|w)都是未知的++.根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行评估,然后在套用贝叶斯分类器。

先验概率的估计较简单:1.每个样本所属的自然状态都是已知的(有点监督学习)2.依靠经验 3.用训练样本中各类出现的频率估计

类条件概率的估计很难,原因包括:1.概率密度函数包含了一个随机变量的全部信息;2.样本数据可能不多;3.特征向量x的维度可能很大等等
总之要直接估计类条件概率的密度函数很难。解决办法:把估计完全未知的概率密度 p(x|w)转换为估计参数。这样就将概率密度估计问题转化为了参数估计问题 极大似然估计就是一种参数估计方法。 当然,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准的估计值,如果模型都错了,那估计半天的参数,肯定没有意义了。

重要前提

训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓++独立同分布额随机变量++,且有充分的训练样本。

极大似然估计

原理图:

figure.2

似然函数(likehood function) : 联合概率密度函数 p ( D ∣ θ ) p(D|\theta) p(Dθ) 称为相对于 { x 1 , x 2 , … , x N } \left\{ x_{1},x_{2},\dots ,x_{N} \right\} {x1,x2,,xN} θ \theta θ的似然函数. 每个x都是独立的

l ( θ ) = p ( D ∣ θ ) = p ( x 1 , x 2 , … , x N ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) l(\theta)=p(D|\theta)=p(x_{1},x_{2},\dots,x_{N}|\theta)=\prod_{i=1}^{N}p(x_{i}|\theta) l(θ)=p(Dθ)=p(x1,x2,,xNθ)=i=1Np(xiθ)

如果 θ ^ \hat{\theta} θ^ 是参数空间中能使似然函数 l ( θ ) l(\theta) l(θ) 最大的 θ \theta θ 值,则 θ ^ \hat{\theta} θ^应该是最可能的参数值,那么 θ ^ \hat{\theta} θ^`就是 θ \theta θ的极大似然估计量。它的样本集的函数记作:

θ ^ = d ( x 1 , x 2 , … , x N ) = d ( D ) \hat{\theta}=d(x_{1},x_{2},\dots,x_{N})=d(D) θ^=d(x1,x2,,xN)=d(D)

θ ^ = d ( x 1 , x 2 , … , x N ) \hat{\theta}=d(x_{1},x_{2},\dots,x_{N}) θ^=d(x1,x2,,xN) 称为极大似然函数估计值

求解极大似然函数

ML估计:求是的出现该组样本的概率最大的 θ \theta θ 值。

θ ^ = a r g   m a x θ ∏ i = 1 N p ( x i ∣ θ ) \hat{\theta}=arg\: \underset{\theta}{max} \prod_{i=1}^{N}p(x_{i}|\theta) θ^=argθmaxi=1Np(xiθ)

实际中为了便于分析,定义了对数似然函数

H ( θ ) = l n   l ( θ ) H(\theta)=ln\:l(\theta) H(θ)=lnl(θ)

l ( θ ) = p ( D ∣ θ ) = p ( x 1 , x 2 , … , x N ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) l(\theta)=p(D|\theta)=p(x_{1},x_{2},\dots,x_{N}|\theta)=\prod_{i=1}^{N}p(x_{i}|\theta) l(θ)=p(Dθ)=p(x1,x2,,xNθ)=i=1Np(xiθ)

θ ^ = a r g   H ( θ ) = a r g   m a x θ ln ⁡ l ( θ ) = a r g   ∏ i = 1 N l n   p ( x i ∣ θ ) \hat{\theta}=arg\:H(\theta)=arg\: \underset{\theta}{max} \ln l(\theta)= arg\: \prod_{i=1}^{N}ln\:p(x_{i}|\theta) θ^=argH(θ)=argθmaxlnl(θ)=argi=1Nlnp(xiθ)

1.未知参数只有一个(theta为标量)
在似然函数满足联系、可微的正则条件下,极大似然估计量是下面微分方程的解:

figure.3

2.未知参数有多个(theta为向量)
则theta可表示为具有S个分量的未知向量:

θ = [ θ 1 , θ 2 , … , θ s ] T \theta=[\theta_{1},\theta_{2},\dots,\theta_{s}]^{T} θ=[θ1,θ2,,θs]T

记梯度算子:

figure.4

若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解.

figure.5

方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值,

例子

figure.6

总结

求解最大似然估计量的一般步骤:

  • 写出似然函数
  • 写出对数似然函数,并整理
  • 求对数似然函数关于标量/向量theta的导数,在上面例子中theta为向量=(u,sigma)
  • 求解似然方程,将求导后的结果等于0 (满足dH(theta)/d theta=0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

StriveZs

用爱发电

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值