最大似然估计与最大后验估计总结

TLDR (or the take away)

  • 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
  • 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)

两大学派的争论

抽象一点来讲,频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

在对事物建模时,用 θ \theta θ 表示模型的参数,请注意,解决问题的本质就是求 θ \theta θ 。那么:

  • 频率学派:存在唯一真值 θ \theta θ 。举一个简单直观的例子–抛硬币,我们用 P ( h e a d ) P(head) P(head) 来表示硬币的bias。抛一枚硬币100次,有20次正面朝上,要估计抛硬币正面朝上的bias P ( h e a d ) P(head) P(head) 。在频率学派来看, θ \theta θ = 20 / 100 = 0.2,很直观。当数据量趋于无穷时,这种方法能给出精准的估计;然而缺乏数据时则可能产生严重的偏差。例如,对于一枚均匀硬币,即 θ \theta θ = 0.5,抛掷5次,出现5次正面 (这种情况出现的概率是1/2^5=3.125%),频率学派会直接估计这枚硬币 θ \theta θ = 1,出现严重错误。
  • 贝叶斯学派 θ \theta θ 是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。先验,即 P ( θ ) P(\theta) P(θ),指的是在没有观测到任何数据时对 θ \theta θ 的预先判断,例如给我一个硬币,一种可行的先验是认为这个硬币有很大的概率是均匀的,有较小的概率是是不均匀的;似然,即 P ( X ∣ θ ) P(X|\theta) P(Xθ) ,是假设 θ \theta θ 已知后我们观察到的数据应该是什么样子的;后验,即 P ( θ ∣ X ) P(\theta|X) P(θX) ,是最终的参数分布。贝叶斯估计的基础是贝叶斯公式,如下:
    P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) P(\theta|X) = \dfrac{P(X|\theta)P(\theta)}{P(X)} P(θX)=P(X)P(Xθ)P(θ)
    同样是抛硬币的例子,对一枚均匀硬币抛5次得到5次正面,如果先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么 P ( h e a d ) P(head) P(head) ,即 P ( θ ∣ X ) P(\theta|X) P(θX),是一个distribution,最大值会介于0.5~1之间,而不是武断的 θ \theta θ= 1。

问题引入

已知一组数据集 D = { x 1 , x 2 , . . . , x n } D=\{x_1,x_2,...,x_n\} D={x1,x2,...,xn}是独立地从概率分布 P ( x ) P(x) P(x)上采样生成的,且 P ( x ) P(x) P(x)具有确定的形式(如高斯分布,二项分布等)但参数 θ \theta θ未知。

问题:如何根据数据集 D D D 估计参数 θ \theta θ ?

为了解决上述问题,统计学界存在两种不同的解决方案:

  • 频率学派:参数 θ \theta θ是一个客观存在的固定值,其可以通过找到使数据集 D D D 出现可能性最大的值,对参数 θ \theta θ进行估计,此便是极大似然估计的核心思想。
  • 贝叶斯学派:参数 θ \theta θ是一个随机变量,服从一个概率分布(换句话讲, θ \theta θ不是一个客观存在的固定值,而是可以取很多不同值的变量,且具有相应的可能性),其首先根据主观的经验假定 θ \theta θ的概率分布为 P ( θ ) P(\theta) P(θ)(先验分布,往往并不准确),然后根据观察到的新信息(数据集 D D D)对其进行修正,此时 θ \theta θ的概率分布为 P ( θ ∣ D ) P(\theta|D) P(θD)(后验分布)

最大似然估计

核心思想:找到使数据集 D D D出现可能性最大的值,对参数 θ \theta θ进行估计,即 θ ^ = a r g m a x θ P ( D ∣ θ ) \widehat {\theta }=argmax_{\theta }P(D|\theta) θ =argmaxθP(Dθ)

最大后验估计

原则上,贝叶斯学派对 θ \theta θ的估计应该就是 θ \theta θ的后验分布 P ( θ ∣ D ) P(\theta|D) P(θD),但是大多数时候后验分布的计算较为棘手,因此此时出现一种折衷解法:找到使后验概率最大的值,对参数 P ( θ ) P(\theta) P(θ)进行估计,即
在这里插入图片描述
根据上式可以发现,最大后验估计与最大似然估计优化过程中的差异便是多了一项 log ⁡ p ( x ) \log p\left( x\right) logp(x) ,相当于加了一项与 θ \theta θ的先验概率 P ( θ ) P(\theta) P(θ) 有关的惩罚项。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值