5分钟理解贝叶斯公式

贝叶斯公式:

$$P(Y|X)=\frac{P(X|Y) P(Y)}{P(X)}$$

贝叶斯公式是机器学习的大部分算法理论的基础,比如朴素贝叶斯方法,隐马尔可夫模型,条件随机场,可以说不理解贝叶斯公式就不可能搞懂机器学习算法。

先用个例子理解贝叶斯公式涉及的几个概念:先验概率(又叫边缘概率)P(X)或P(Y),联合概率P(X,Y),后验概率(又叫条件概率)P(X|Y)和P(Y|X)。假设老王一周当中是周一,周三,周五会在办公室,同事老张是周二周五会在办公室。

 周一周二周三周四周五周六周日
    
     
王,张    都在  

那么

1.老王在办公室的先验概率P(王在办公室),简写为P(王)=3/7,因为一周有7天,其中有3天在办公室。先验可以理解为在知道一些进一步的经验知识之前,我们对某件事发生的概率判断,这个与后验相对应。

                                                 P(王)=3/7

2.同理,老张在办公室的先验概率P(张)是2/7,因为7天中,老张有2天在办公室。

                                                 P(张)=2/7

3.已经知道老王在办公室的条件下,老张在办公室的概率,叫后验概率或条件概率,用P(张|王)表示。后验就是在已经知道一些经验知识(已知老王在办公室)以后,评估某件事的发生概率。很明显,知道的经验知识越多,我们判断出的概率就越接近真实。P(张|王)=1/3,因为在老王在办公室的三天当中,有一天(周五那天)老张也在办公室。

                                                 P(张|王)=1/3

4.同理,已经知道老张在办公室的条件下,老王在办公室的条件概率P(王|张)=1/2,因为在老张在办公室的2天当中,有1天老王也在办公室。

                                                  P(王|张)=1/2

3.他们同一天在办公室的概率,就是两件事情都发生的概率,这个就是联合概率P(王,张),等于1/7,因为他们在一周7天中会有一天都去办公室。这是直观的计算。因为“老王在的时候,老张也在”与“老张在的时候,老王也在”是相同的意思,所以联合概率中两个变量交换顺序结果相同,即P(王,张)=P(张,王)

                                             P(王,张)=P(张,王)=1/7

4.用另一种方法计算,先算老王去办公室的概率P(王),再算当老王在办公室的情况下,老张在办公室的条件概率P(张|王),两个概率相乘就得到两人都在办公室的概率。

                                            P(王,张)=P(王)P(张|王)=(3/7)*(1/3)=1/7

5.还可以把老张老王顺序交换下,先算老张在办公室的概率P(张),再算当老张在办公室的情况下,老王也同一天在办公室的条件概率P(王|张),同样,两个概率相乘得到两人的在办公室的概率。

                                            P(张,王)=P(张)P(王|张)=(2/7)*(1/2)=1/7

6.上面三种方法计算的结果相同,这显然是符合常理了。第4和第5两个式子联合起来得到

                              P(王,张)=P(王)P(张|王)=P(张)P(王|张)

                             又得到:P(张|王)=P(张)P(王|张)/P(王)

                             或者得到:P(王|张)=P(王)P(张|王)/P(张)

用X,Y来替换"王","张",显得更像数学,这就是贝叶斯公式$$P(Y|X)=\frac{P(X|Y) P(Y)}{P(X)}$$

其中Y代表一个随机事件,X代表另一个随机事件,两个随机事件有一定的关联。当X发生的条件下,Y也发生的概率P(Y|X)可以用条件和结果颠倒的方式来计算,转成对Y发生作为条件时X的发生概率P(X|Y)和P(Y),P(X)来计算。

记忆方法:把P(Y|X)当成分子|分母, 等号的右边理解为,先把P(Y|X)分子分母颠倒为P(X|Y),再乘分母P(Y),再除等式左边的P(Y|X)的分母即P(X)

7.对于P(张)还可以用P(王)P(张|王)来计算,把P(王)不再当成老王在办公室的这个确定事件,而是理解为一个变量,为了与前面区别,用王'来表示这个变量。变量的取有2个,1个是老王在办公室,1个是不在办公室。老王在办公室用“王'=在”表示,老王不在办公室用“王'=不在”表示。那么老张在办公室的概率P(张)可以用两个概率相加得到。因为当老王在办公室时,老张有些日子会在办公室,老王不在办公室时,老张也有些日子在办公室,这两种情况下老张在办公室的概率相加就是无论老王在不在的情况下,老张在办公室的概率。

                   P(张) = P(王'=在)P(张|王'=在) + P(王'=不在)P(张|王'=不在)

或者写成:

$$P(张) = \sum_{王'} P(王')P(张|王')$$

因此贝叶斯公式又有时写成:

$$P(Y|X)=\frac{P(X|Y) P(Y)}{\sum_YP(X|Y)P(Y)}$$

分母中的含义是,把Y当成一个变量,变量的所有可能取值逐个代进式子P(X|Y)P(Y),把所有的结果求和。这个结果实际上就与P(Y)无关了。正如老王在办公室时老张也在办公室的概率+上老王不在办公室时,老张在办公室的概率和就与老王在办公室的概率已经没有关系了,因为这个和就是无论老王在不在办公室,老张都在办公室的概率。

  • 8
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值