极大似然概率和最大后验概率

1. 频率学派和贝叶斯派

频率学派
认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率

他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE)这种方法往往在大数据量的情况下可以很好的还原模型的真实情况

贝叶斯派
他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计(MAP)这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。

2. 极大似然概率和最大后验概率

2.1 极大似然概率(MLE)

可以简单理解为概率、可能性,也就是说要最大化该事件发生的可能性;它的含义是根据已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率

例子说明
假如一个盒子里面有红黑共10个球,每次有放回的取出,取了10次,结果为7次黑球,3次红球。问拿出黑球的概率 p p p 是多少?

我们假设7次黑球,3次红球为事件 A,一个理所当然的想法就是既然事件A已经发生了,那么事件 A发生的概率应该最大。所以既然事件A 的结果已定, 我们就有理由相信这不是一个偶然发生的事件,这个已发生的事件肯定一定程度上反映了黑球在整体中的比例。所以我们要让模型产生这个整体事件的概率最大,我们把这十次抽取看成一个整体事件A ,很明显事件A发生的概率是每个子事件概率之积。我们把 P ( A ) P(A) P(A)看成一个关于 p p p(黑球的概率) 的函数,求 P ( A ) P(A) P(A)取最大值时的 p p p,这就是极大似然估计的思想。具体公式化描述为 P ( A ) = p 7 ∗ ( 1 − p ) 3 P(A)=p^7*(1-p)^3 P(A)=p7(1p)3

接下来就是取对数转换为累加,然后通过求导令式子为0来求极值,求出p的结果。
l n ( P ( A ) ) = l n ( p 7 ) ∗ ( 1 − p ) 3 = 7 l n ( p ) + 3 l n ( 1 − p ) ln(P(A))=ln(p^7)*(1-p)^3=7ln(p)+3ln(1-p) ln(P(A))=ln(p7)(1p)3=7ln(p)+3ln(1p)

令: l n ′ ( P ( A ) ) = 0 ln^{'}(P(A))=0 ln(P(A))=0
得: 7 p + 3 p − 1 = 0 \frac{7}{p}+\frac{3}{p-1}=0 p7+p13=0
得: p = 0.7 p=0.7 p=0.7

2.2 最大后验概率估计(MAP)

就是最大化在给定数据样本的情况下模型参数的后验概率;它依然是根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,即模型参数可能满足某种分布,不再一味地依赖数据样例(万一数据量少或者数据不靠谱呢)

例子说明
抛一枚硬币10次,有10次正面朝上,0次反面朝上。问正面朝上的概率 θ \theta θ

利用极大似然估计可以得到 θ \theta θ = 10 / 10 = 1.0。显然当缺乏数据时MLE可能会产生严重的偏差。

如果我们利用极大后验概率估计来看这件事,先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么 P ( θ ∣ X ) P(\theta|X) P(θX)是一个分布,最大值会介于0.5~1之间,而不是武断的给出 θ \theta θ= 1。

随着数据量的增加,参数分布会更倾向于向数据靠拢,先验假设的影响会越来越小

3. 经验风险最小化与结构风险最小化

经验风险最小化与结构风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低;而结构风险最小化是在经验风险最小化的基础上约束模型的复杂度,使其在训练数据集的损失降到最低的同时,模型不至于过于复杂,相当于在损失函数上增加了正则项,防止模型出现过拟合状态。这一点也符合奥卡姆剃刀原则:如无必要,勿增实体。

经验风险最小化可以看作是采用了极大似然的参数评估方法,更侧重从数据中学习模型的潜在参数,而且是只看重数据样本本身。这样在数据样本缺失的情况下,很容易管中窥豹,模型发生过拟合的状态;结构风险最小化采用了最大后验概率估计的思想来推测模型参数,不仅仅是依赖数据,还依靠模型参数的先验假设。这样在数据样本不是很充分的情况下,我们可以通过模型参数的先验假设,辅助以数据样本,做到尽可能的还原真实模型分布。

3.1 经验风险最小化

当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计;可以参考逻辑回归

3.2 结构风险最小化

当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

4. MLE和MAP的联系

假设数据 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn是满足独立同分布(i.i.d.)的一组抽样 X = ( x 1 , x 2 , . . . , x n ) X=(x_1, x_2, ..., x_n) X=(x1,x2,...,xn),接下来就利用两种参数估计方法来求解

MLE对参数 θ \theta θ的估计方法可以如下
θ ^ M L E = arg ⁡ max ⁡ P ( X ; θ ) = arg ⁡ max ⁡ P ( x 1 ; θ ) P ( x 2 ; θ ) ⋯ P ( x n ; θ ) = arg ⁡ max ⁡ log ⁡ ∏ i = 1 n P ( x i ; θ ) = arg ⁡ max ⁡ ∑ i = 1 n log ⁡ P ( x i ; θ ) = arg ⁡ min ⁡ − ∑ i = 1 n log ⁡ P ( x i ; θ ) \begin{aligned} \hat{\theta}_{\mathrm{MLE}} &=\arg \max P(X ; \theta) \\ &=\arg \max P\left(x_{1} ; \theta\right) P\left(x_{2} ; \theta\right) \cdots P\left(x_{n} ; \theta\right) \\ &=\arg \max \log \prod_{i=1}^{n} P\left(x_{i} ; \theta\right) \\ &=\arg \max \sum_{i=1}^{n} \log P\left(x_{i} ; \theta\right) \\ &=\arg \min -\sum_{i=1}^{n} \log P\left(x_{i} ; \theta\right) \end{aligned} θ^MLE=argmaxP(X;θ)=argmaxP(x1;θ)P(x2;θ)P(xn;θ)=argmaxlogi=1nP(xi;θ)=argmaxi=1nlogP(xi;θ)=argmini=1nlogP(xi;θ)

MAP对 θ \theta θ 的估计方法可以如下推导:
θ ^ M A P = arg ⁡ max ⁡ P ( θ ∣ X ) = arg ⁡ min ⁡ − log ⁡ P ( θ ∣ X ) = arg ⁡ min ⁡ − log ⁡ P ( X ∣ θ ) − log ⁡ P ( θ ) + log ⁡ P ( X ) = arg ⁡ min ⁡ − log ⁡ P ( X ∣ θ ) − log ⁡ P ( θ ) \begin{aligned} \hat{\theta}_{\mathrm{MAP}} &=\arg \max P(\theta | X) \\ &=\arg \min -\log P(\theta | X) \\ &=\arg \min -\log P(X | \theta)-\log P(\theta)+\log P(X) \\ &=\arg \min -\log P(X | \theta)-\log P(\theta) \end{aligned} θ^MAP=argmaxP(θX)=argminlogP(θX)=argminlogP(Xθ)logP(θ)+logP(X)=argminlogP(Xθ)logP(θ)

所以MAP和MLE在优化时的不同就是在于增加了一个先验项 − l o g P ( θ ) -logP(\theta) logP(θ)
通过以上的分析可以大致给出他们之间的联系: M A P ( θ ) ≈ M L E ( θ ) + P ( θ ) MAP(\theta)\approx MLE(\theta)+P(\theta) MAP(θ)MLE(θ)+P(θ)

参考

极大似然估计与最大后验概率估计

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值