什么是最大似然估计、最大后验估计以及贝叶斯参数估计

转载 2018年04月15日 15:01:44

注:本文以简单的案例,解释了最大似然估计、最大后验估计以及贝叶斯参数估计的联系和区别。

假如你有一个硬币。你把它投掷 3 次,出现了 3 次正面。下一次投掷硬币正面朝上的概率是多少? 这是一个从数据中估计参数的基础机器学习问题。在这种情况下,我们要从数据 D 中估算出正面朝上 h 的概率。

最大似然估计


一种方法是找到能最大化观测数据的似然函数(即 P(D;h))的参数 h 的值。在这里,我们用「;」来表示 h 是一个关于概率分布 P 的参数,意味着参数 h 定义了分布 P,但是分布 P 只是说明了观测数据 D 成立的可能性有多大。



这是被称为「最大似然估计」的最常用的参数估计方法。通过该方法,我们估计出 h=1.0。


但是直觉告诉我们,这是不可能的。对于大多数的硬币来说,还是存在反面朝上的结果的可能性,因此我们通常希望得到像 h=0.5 这样的结果。


先验和后验


如何将这种直觉数学化地表述出来呢?我们可以定义一个观测数据和参数的联合概率:p(D, h) = p(D|h)p(h)。我们定义一个先验分布 p(h) 来表示在观测前关于 h 应该是什么值的直觉,以及在给定参数 h 的情况下的条件概率 p(D|h)。


如何利用现有的数据 D 估计参数 h 呢?我们需要得到后验分布 p(h|D),但是目前只有分布 P(D|h) 和 p(h)。这时候,你需要贝叶斯公式来帮忙!


贝叶斯公式:P(h|D)=P(D|h)*P(h)/P(D)


但是,这里的分母是一个问题:



一般来说,计算这个积分是不可能的。对于这个投硬币的例子来说,如果使用非常特殊的共轭先验分布,就可以绕过这个问题。


最大后验估计


但实际上,我们可以抛开归一化常数 P(D) 以更巧妙的方式讨论 p(h|D)。也就是说归一化常数不改变分布的相对大小,我们可以在不做积分的情况下找到模式:



这就是人们所熟知的最大后验估计(MAP)。有很多种方法可以算出变量 h 的确切值,例如:使用共轭梯度下降法。


贝叶斯参数估计


有了最大后验估计,可以通过先验分布来引入我们的直觉,并且忽略归一化积分,从而得到后验分布模式下的关于 h 的点估计。


但是如果我们试着用近似方法求积分呢?如果按通常的独立同分布假设,我们可以利用这个事实:未来可能出现的数据样本值 x 条件独立于给定参数 h 时的观测值 D。



这并非使用与后验概率 p(h|D) 模式相应的参数 h 的单一值来计算 P(x|h),而是一个更加「严格」的方法,它让我们考虑到所有可能的 h 的后验值。这种方法被称为贝叶斯参数估计。


注意,存在两个关于概率分布的重要任务:


  • 推断:给定已知参数的联合分布,通过其它变量的边缘概率和条件概率估计一个变量子集上的概率分布。

  • 参数估计:从数据中估计某个概率分布的未知参数


贝叶斯参数估计将这两项任务构造成了「同一枚硬币的两面」:


估计在一组变量上定义的概率分布的参数,就是推断一个由原始变量和参数构成的元分布。


当然,实际上要做到这一点,需要计算困难的积分,我们将不得不用类似于「马尔可夫链蒙特卡洛算法」或者变分推断等方法取近似。



这是被称为「最大似然估计」的最常用的参数估计方法。通过该方法,我们估计出 h=1.0。


但是直觉告诉我们,这是不可能的。对于大多数的硬币来说,还是存在反面朝上的结果的可能性,因此我们通常希望得到像 h=0.5 这样的结果。


先验和后验


如何将这种直觉数学化地表述出来呢?我们可以定义一个观测数据和参数的联合概率:p(D, h) = p(D|h)p(h)。我们定义一个先验分布 p(h) 来表示在观测前关于 h 应该是什么值的直觉,以及在给定参数 h 的情况下的条件概率 p(D|h)。


如何利用现有的数据 D 估计参数 h 呢?我们需要得到后验分布 p(h|D),但是目前只有分布 P(D|h) 和 p(h)。这时候,你需要贝叶斯公式来帮忙!


贝叶斯公式:P(h|D)=P(D|h)*P(h)/P(D)


但是,这里的分母是一个问题:



一般来说,计算这个积分是不可能的。对于这个投硬币的例子来说,如果使用非常特殊的共轭先验分布,就可以绕过这个问题。


最大后验估计


但实际上,我们可以抛开归一化常数 P(D) 以更巧妙的方式讨论 p(h|D)。也就是说归一化常数不改变分布的相对大小,我们可以在不做积分的情况下找到模式:



这就是人们所熟知的最大后验估计(MAP)。有很多种方法可以算出变量 h 的确切值,例如:使用共轭梯度下降法。


贝叶斯参数估计


有了最大后验估计,可以通过先验分布来引入我们的直觉,并且忽略归一化积分,从而得到后验分布模式下的关于 h 的点估计。


但是如果我们试着用近似方法求积分呢?如果按通常的独立同分布假设,我们可以利用这个事实:未来可能出现的数据样本值 x 条件独立于给定参数 h 时的观测值 D。



这并非使用与后验概率 p(h|D) 模式相应的参数 h 的单一值来计算 P(x|h),而是一个更加「严格」的方法,它让我们考虑到所有可能的 h 的后验值。这种方法被称为贝叶斯参数估计。


注意,存在两个关于概率分布的重要任务:


  • 推断:给定已知参数的联合分布,通过其它变量的边缘概率和条件概率估计一个变量子集上的概率分布。

  • 参数估计:从数据中估计某个概率分布的未知参数


贝叶斯参数估计将这两项任务构造成了「同一枚硬币的两面」:


估计在一组变量上定义的概率分布的参数,就是推断一个由原始变量和参数构成的元分布。


当然,实际上要做到这一点,需要计算困难的积分,我们将不得不用类似于「马尔可夫链蒙特卡洛算法」或者变分推断等方法取近似。

Open Source离我们有多远

与成功企业的企业文化常被人关注一样,去年以来Linux的成功吸引了许多关注Open Source文化的目光。然而令Open Source文化的倡导者们始料不及的是,在他们为此而欢呼时,不得不面对这样一...
  • terrywang
  • terrywang
  • 2000-12-24 11:23:00
  • 532

贝叶斯估计和最大后验估计

贝叶斯估计和最大后验估计 发表于1年前(2015-01-03 11:48)   阅读(23) | 评论(0) 0人收藏此文章, 我要收藏 赞0 使用贝叶斯估计计算参数比较困难,所...
  • Real_Myth
  • Real_Myth
  • 2016-04-25 09:28:00
  • 1283

最大后验估计(MAP)

最大后验估计(maximum a posteriori probability estimate, 简称MAP) 与最大似然估计类似,但是,在似然函数后面多乘了一项,即“待估计参数的先验分布”。故最...
  • MarinkaWang
  • MarinkaWang
  • 2016-04-22 16:10:10
  • 741

最大似然估计、贝叶斯估计、最大后验估计理论对比

本文要总结的是3种估计的原理、估计与目标函数之间的关系。这三种估计放在一起让我晕头转向了好久,看知乎,看教材,有了以下理解。以下全部是个人看书后的理解,如有理解错误的地方,请指正,吾将感激不尽。 来...
  • juanjuan1314
  • juanjuan1314
  • 2017-10-10 10:11:43
  • 1408

最大后验概率估计算法

原作者未知 最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。...
  • Real_Myth
  • Real_Myth
  • 2017-07-19 00:09:21
  • 726

最大似然函数和最大后验概率区别

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示...
  • Touch_Dream
  • Touch_Dream
  • 2017-08-21 21:37:35
  • 951

先验概率、最大似然估计、贝叶斯估计、最大后验概率

参数估计的方法有多种,这里我们分析三种基于概率的方法,分别是最大似然估计(Maximum Likelihood)、贝叶斯估计(Bayes)和最大后验估计(Maximum a posteriori)。我...
  • guohecang
  • guohecang
  • 2016-08-25 11:33:05
  • 24539

最大似然估计,最大后验估计,贝叶斯估计

这三种方法都是监督学习中的参数估计方法,假定已知data的分布形式(比如第二章里介绍的各种分布),但是需要确定参数。 1 最大似然估计Maximize Likelihood Estimation等价...
  • jianjian_come_on
  • jianjian_come_on
  • 2014-11-10 17:52:00
  • 836

【机器学习】MAP最大后验估计和ML最大似然估计区别

MAP:maximun a posteriori 最大后验估计 ML:maximun likelihood. 1 MAP A maximum a posteriori probability (M...
  • zkq_1986
  • zkq_1986
  • 2017-10-16 21:50:38
  • 289

机器学习->统计学基础->贝叶斯估计,最大似然估计(MLE),最大后验估计(MAP)

在学习机器学习,推荐系统等上的众多算法思想时,以及在数学公式推到上面,避免不了许多统计学方面的知识,其中以贝叶斯,最大似然估计,最大后验估计为最常遇见,必须深刻掌握了解。首先讲讲贝叶斯估计(对比传统频...
  • Mr_tyting
  • Mr_tyting
  • 2017-03-17 10:15:11
  • 3521
收藏助手
不良信息举报
您举报文章:什么是最大似然估计、最大后验估计以及贝叶斯参数估计
举报原因:
原因补充:

(最多只允许输入30个字)