概率、先验概率、后验概率

最新推荐文章于 2022-05-23 23:00:28 发布

vola9527

最新推荐文章于 2022-05-23 23:00:28 发布

阅读量2.9k

点赞数

分类专栏：算法&概念&工具文章标签：概率统计先验概率后验概率

算法&概念&工具专栏收录该内容

50 篇文章 0 订阅

订阅专栏

今天看了 Larry Wasserman写的 All of Statistics中的第一章，第一章主要讲概率，其中最主要的就是贝叶斯公式。要了解贝叶斯公式，就得知道全概率公式：

通俗的讲，先验概率就是事情尚未发生前，我们对该事发生概率的估计，例如全概率公式中P(B)就是先验概率，求解方法有很多种，全概率公式是一种，也可以根据经验等，例如抛一枚硬币头向上的概率为0.5。

后验概率则是表示在事情已经发生的条件下，要求该事发生原因是有某个因素引起的可能性的大小。

先验概率是在缺乏某个事实的情况下描述一个变量；而后验概率（Probability of outcomes of an experiment after it has been performed and a certain event has occured.）是在考虑了一个事实之后的条件概率。

通过贝叶斯公式，利用先验概率、似然函数可以计算出后验概率。

贝叶斯公式有很多应用，可以应用到分类，也可以用来决策，基本思路都是找出使后验概率最大的那个结果。以分类为例，就是找出一个最大的概率：已知样本的某些特性，求解该样本属于某个类别的后验概率。举个垃圾邮件的例子：

将邮件分为三类，A1=spam,A2=low priority ,A3=high priority.从以前的经验中得到先验概率P(A1)=0.7,P(A2)=0.2,P(A3)=0.1.这三个的概率之和一定为1。设事件B为邮件中包含单词free(为啥是free,我也不知道，只是举个例子不要当真，也可以是democracy)，我们可以古典概率模型计算出P(B|A1)=0.9,P(B|A2)=0.01,P(B|A3)=0.01.当然这三个的和可能不为1，你知道原因么?言归正传，某天我收到一封邮件，发件人来自米国这个头号资本主义国家，这不是重点，重点是这封邮件包含了单词free，问这封邮件为spam的概率是多少？

也就是说你有0.995的成功率判定该邮件为spam,至此你不知不觉地已经构建了最简单的反垃圾邮件算法，更多细节与拓展需要继续学习。

贝叶斯只是反垃圾邮件的一种方法，还可以用svm等方法，这个还没细看。

上述例子只是贝叶斯公式的一个简单应用，它还有更多的变形与应用，以后遇到在细写吧。

再举一个很经典的例子来深入了解下贝叶斯公式。这个例子基本是每个总结贝叶斯公式必用的例子，一方面是这个例子很经典，另一个原因就是人们都太懒了不愿意去想新的例子，不幸的是我也很懒。

如下：

有三个门，一个门后面有一个里有汽车，如果选对了就可以得到这辆车，当应试者选定一个门之后，主持人打开了另外一个门，空的。问应试者要不要换一个选择。假设主持人知道车所在的那个门。
经典解法（结论倒是正确的）：
    第一次选择正确的概率是1/3，因此汽车在另外两个门里的概率是2/3。主持人指出一个门，如果你开始选错了(2/3概率)，则剩下的那个门里100%有汽车；如果你第一次选对(1/3)了，剩下那个门里100%没汽车。
所以主持人提示之后，你不换的话正确概率是1/3*100%+2/3*0=1/3，你换的话正确概率是1/3*0+2/3*100%=2/3。这个解法的的问题在于，现在主持人已经打开一个空门了（而且主持人是有意打开这个门的），在这一“信息” 出现后，还能说当初选错的概率是2/3吗？这一后验事实不会改变我们对于先验概率的看法吗？答案是会的。更具体地说，主持人打开一扇门后，对当初选择错误的概率估计不一定等于2/3。
    从头说起。假设我选了B门，假设主持人打开了C门，那么他在什么情况下会打开C门呢？
    若A有车（先验概率P=1/3），那主持人100%打开C门（他显然不会打开B）；
    若B有车（先验概率P=1/3），那此时主持人有A和C两个选择，假设他以K的概率打开C（一般K=1/2，但我们暂把它设成变量）；
    若C有车（先验概率P=1/3），那主持人打开C的概率为0（只要他不傻。。。）
    已知他打开了C，那根据贝叶斯公式——这里P（M|N）表示N事件发生时M事件发生的概率：

P（C打开|B有车）* p（B有车）

P（B有车|C打开）= ------------------------------

P（C打开）

P（C打开|B有车）* p（B有车）

= ------------------------------------

P（C打开|A有车）* p（A有车）+ P（C打开|B有车）* p（B有车）

K * 1/3

= -------------------

1 * 1/3 + K * 1/3

= -------

K + 1
该值何时等于1/3 呢（也就是经典解法里的假设）？只有 K=1/2 时。也就是一般情况下。但如果主持人有偏好，比方说他就是喜欢打开右边的门（假设C在右边），设K=3/4，那么B有车的概率就变成了 3/5，不再是1/3，后验事实改变了先验概率的估计！

但这并不改变正确的选择，我们仍然应该改选A门，解释如下：

P（C打开|A有车）* p（A有车）

P（A有车|C打开）= ------------------------------

P（C打开）

P（C打开|A有车）* p（A有车）

= --------------------------------------------

P（C打开|A有车）* p（A有车）+ P（C打开|B有车）* p（B有车）

1 * 1/3

= -------------------

1 * 1/3 + K * 1/3

= -------

K + 1

而K < 1（假设主持人没有极端到非C不选的程度），所以永远有 P(B有车|C打开) < P( A有车|C打开).A有车的概率永远比B大，我们还是应该改变选择。
这个解法的重点在于考虑了C被打开这个事实的影响，从而消除了关于先验后验的纷扰。

文中难免会出现错误，希望发现者提出宝贵意见与建议，共同进步，非常感谢。

All of statistics这本书还得继续看，希望能坚持下去。

补充

关于先验概率的求法：

先验概率可以利用蒙特卡洛的方法求之，有人写了篇比较详细的文章，我就不赘述了。转载如下：

最近，开始学习和概率模型相关的智能算法。这类算法能解决的问题很多，包括模式识别（分类问题）、预测、决策等等。是非常具有实际应用价值的一类算法。

当然，这类算法体系也非常的庞大，尤其是其中涉及高深的数学原理的方法众多。但是，显然，我们要讨论的问题算法并不属于此类（很大原因是因为我概率挂了）。我们今天讨论的重点将放在：如果一个概率我无法求得，那么我们有什么其他办法获得。

首先，我们来考虑著名的“蒙特卡洛法”——又是是个名字很猛，其实很“直白”的算法。

考虑这样一个问题：投3个骰子，扔出8点的概率是多少？很简单是不是，但是其实算出来还是有一点点麻烦（记住，“懒惰”对于一个程序员来时说一个优秀的品质，“懒惰”的人会详尽办法使问题变得容易处理）。那么，我们可不可以让计算机帮我们计算呢？计算机的最大特点是：计算快，但是不擅推理。所以我们用一个和他很相配的办法来计算这个概率：试。具体来说就是，让计算机去投骰子，投100万次，看看其中有多少次是8点，然后我们就知道实际概率了——这便是蒙特卡洛法，再简单不过的方法了，这个方法没有复杂的公式，没有麻烦的步骤，只是一个简单的思想：通过仿真来模拟现实，再用简单的统计方法得到概率。

现在大家对蒙特卡洛有了一个基本的认识，那么来详细讨论下在什么情况下，我们可以使用蒙特卡洛法——当然，在这之前，我们先要考虑一个更一般的问题：在什么情况下，我们可以使用一个（任何一种）基于概率论的方法？

对于刚刚的提出的骰子的问题，我们来考虑一个最最基本的问题：如果我只扔了1次骰子，那么我们可不可以认为结果就表示了实际概率呢？1000次呢？

对于第一个问题，所有人相信马上就会回答：不可以。但是1000次呢？有些人可能就犹豫了：应该可以了吧？那么，我们究竟应该扔多少次才可以得到我们想要的概率呢？

这里，请大家先沐浴更衣，因为我们要祭出一个有关概率论最最基础，也最有用的经验值：对于使用概率问题讨论的系统，其必然存在的误差将约为（根号下样本数量）分之一。这个经验公式是薛定谔提出的，注意：这只是一个经验公式，没有任何的推理过程和证明，我们甚至“不好意思”在正式公式里面把它作为一项来讨论——他就好像是谚语一样的存在。但是，正是这样的一个“谚语”，决定了我们科学研究对象的一个重要分界线：我们只能对系统中，个体数量足够的多的系统（比如瓶子里面的空气分子）使用统计学方法（统计力学）进行精确研究，而如果样本数量减少，比如近千个样本，那么根据公式，我们得到的结果，将至少存在一个3%左右的误差——也就是说，如果计算得出一个事件的发生概率是3%，那么他可能是0%-6%中的任何一个值。显然，在这种精度下，我们将只能对系统进行定性的分析或粗略的定量分析了。如果我们继续减少样本数量，比如，25个样本（对于像研究一个班级的每个学生、改革开放后的每年的某项指标等等），那么，使用统计学就意味着我们引入了20%的误差（注意，这个误差只是定性的估计，并不意味着，你可以再论文里面写：由于这个误差，所以实际概率是10%-50%)，显然只有在你已经走投无路的时候（比如建模比赛明早交题）才能考虑使用统计学手段。

好，有了以上的基础，我们可以立刻就可以发现：对于使用蒙特卡洛法进行估计概率，只要我们可以对系统进行准确的仿真，那么，我们得到概率的精度将只和有限时间内，我们能进行的仿真次数有关了——大家可能已经注意到了，从上2篇开始，我们就在不断强调，我们的时间是有有限的，这是现在科学研究的一个重要限制：不是这个理论上可行就是可行的，他还要是“可计算”的。

所以，我们很容易提出了蒙特卡洛方法的一个基本限制：仿真速度必须足够的快，以使得我们可以在指定时间内，运行足够多次，以获得足够精度（根据刚刚的经验公式推断精度）。

现在，我们已经知道了蒙特卡洛法的基本限制了。那么，我们来考虑下另一个基本问题：我们在什么情况下，应该使用蒙特卡洛法呢？也就是说，这个方法可以解决什么问题呢？

从刚刚的例子中我们可以很容易总结出来，蒙特卡洛针对的问题是：如果我们需要知道一个概率，这个概率事件的产生方式我们已知（每个骰子以6分之一概率投到一个数字，然后相加），而用公式对概率进行求解非常麻烦（或者根本不可能，比如涉及解一个很多变量的高阶方程组等等）。更进一步的说，对于一个有基本编程能力的人来说，如果写一个仿真程序比你实际推导一个公式时间短，那么我们经应该使用蒙特卡洛法求解（比如刚刚骰子的例子，会用Matlab的朋友应该都是蒙特卡洛求解更快）。

所以，如果用一句话总结蒙特卡洛的用处，那么就是：复杂概率的简单求解办法。（就好像前面介绍的任何优化算法，都是复杂评价函数的快速求极值办法一样）

现在，请大家先对上面一句话留有印象，我们来开始介绍贝叶斯方法。

无论对于基于概率的模式识别，还是基于概率的决策问题，我们基本思路都是一样的，就是：找出概率最高的情况，作为的结果。对于模式识别问题，我们是找出他最可能是的类型。而对于决策问题，我们则是找出最可能产生最好结果的方案。而找出概率的依据，就是我们现在的已知信息。（为了叙述方便，一下都以模式识别问题说明，如果有与决策问题明显不同的地方，我会单独说明）

比如，对于一个识别问题，我们需要找出的就是最大的概率p ( 是某一物体 | 观测到物品具有特性X ) ，这种方法被称为“最大后验假设”。这个概率的描述非常直白，不用我过多解释，我们需要考虑的问题是，我们如何得到这一概率。显然，如果这个可以直接求得的话，任何识别问题就都解决了。既然不好直接得到，那么有没有办法来用其他概率表示这一概率呢？当然有，这就是我们大家都知道的贝叶斯公式。

P( h|D ) = P( D|h )*P(h)/P(D)

贝叶斯公式提供了利用先验概率P(h)和似然度P(D|h)来推导后验概率P(h|D)的方法（下面将看到，P(D)并不重要）。利用贝叶斯公式，我们可以将最大后验假设(缩写为MAP)重写为

MAP = max(P(h|D)) = max(P(D|h)*P(h)/P(D))

由于我们是求最大值，所以，我们可以将式中与h无关的P(D)项（对于所有的h,P(D)均为一常数）去掉，得到了标准的最大后验假设公式

MAP = max( P(D|h) * P(h) )

特殊的，对于很多情况下，我们没有理由说明任何一种情况的先验概率更大（比如数字识别系统，那么被识别对象h是0-9的概率是相同的）。那么，P(h)也变成了一个常数，这时，我们将p(h)去掉，便得到了名为“最大似然假设”的方法（记为ML）

ML = max( p(D|h) )

至此，对于原有问题，我们将问题转换为了求解MAP或者ML的问题。那么我们怎么求解呢？下面我们首先来讨论P(D|h)的问题。

P(D|h)的现实意义是：当我已知对象为h,观测到D的概率。写出这个概率的难度已经比我们写出P(h|D)的难度要低很多了，因为现在我们的问题已经是：我知道这个是一个什么东西，那么它显出某一特性的概率有多少呢？显然，只要我们对我们要判断的东西有足够的认识，我们肯定能得到这个概率：最郁闷的情况下，就用蒙特卡洛法仿真一下就是了！

另一方面，由于我们的MAP或是ML是求最大值的问题，我们又获得了一个更为有效地简化办法：只要我们设定的P'(D|h)满足与真实P(D|h)单调就可以了（并且，所有P(D|h)相加可以不为1）。这一特性使得我们可以用非常多、且非常简便的方法近似求得MAP或者ML。比如，对于一个事件h,我们知道应该有的标准观测值为d'。那么，我们完全可以简单的定义P(D|h)的值为(D-d')^2，即观测误差越大，则我观测到这个观测值的概率越低——这种做法在绝大多数情况下将非常简单而且效果出乎意料的好。

以上就是贝叶斯方法的基本形式。希望能给大家一些共鸣。

vola9527

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
概率、先验概率、后验概率

今天看了 Larry Wasserman写的 All of Statistics中的第一章，第一章主要讲概率，其中最主要的就是贝叶斯公式。要了解贝叶斯公式，就得知道全概率公式：通俗的讲，先验概率就是事情尚未发生前，我们对该事发生概率的估计，例如全概率公式中P(B)就是先验概率，求解方法有很多种，全概率公式是一种，也可以根据经验等，例如抛一枚硬币头向上的概率为0.5。后验概率
复制链接

扫一扫