条件概率、全概率、贝叶斯公式

一、概率的定义

1、公理化定义

设随机试验 E E E的样本空间 Ω \Omega Ω。若按照某种方法,对E的每一事件 A A A赋予一个实数 P ( A ) P(A) P(A),且满足以下公理:
   ①非负性公理: P ( A ) ⩾ 0 P(A)\geqslant0 P(A)0
   ②归一化公理: P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1
   ③加法公理:如果事件 A A A B B B 是互斥的(即它们不能同时发生),那么它们的概率之和等于它们各自概率的和,即 P ( A ∪ B ) = P ( A ) + P ( B ) P(A \cup B)=P(A)+P(B) P(AB)=P(A)+P(B)
   ④连续性公理:对于两两互不相容的可列无穷多个事件 A 1 , A 2 , . . . , A n , . . . A_{1},A_{2},...,A_{n},... A1,A2,...,An,... P ( A 1 ∪ A 2 ∪ . . . ∪ A n ∪ . . . ) = P ( A 1 ) + P ( A 2 ) + . . . + P ( A n ) + . . . P(A_{1} \cup A_{2} \cup ... \cup A_{n} \cup ...)=P(A_{1})+P(A_{2})+...+P(A_{n})+... P(A1A2...An...)=P(A1)+P(A2)+...+P(An)+...
 
 

则称实数 P ( A ) P(A) P(A)为事件 A A A的概率。

2、古典概型

硬币或者骰子的例子在概率论中被称为古典概型,它的定义如下:

   ①样本空间中的样本的个数是有限的。
   ②每个基本事件发生的可能性相同,即概率相等。
根据这个古典概型的定义,古典概型的概率的值是可以计算的。

注意:古典概型只是大量随机现象中的一种特殊的模型,为了对概率有正确的认识,我们必须先抛弃古典概型,而不能把特殊当做一般来认识。

二、概率的性质

   ①不可能事件的概率为零,即 P ( ∅ ) = 0 P(\varnothing)=0 P()=0
   ②有限可加性:若 A 1 , A 2 , . . . , A n A_{1},A_{2},...,A_{n} A1,A2,...,An是两两不相容的事件,有
      P ( A 1 ∪ A 2 ∪ . . . ∪ A n ) = P ( A 1 ) + P ( A 2 ) + . . . + P ( A n ) P(A_{1} \cup A_{2} \cup ... \cup A_{n} )=P(A_{1})+P(A_{2})+...+P(A_{n}) P(A1A2...An)=P(A1)+P(A2)+...+P(An)

   ③设 A , B A,B A,B是两个事件,若 A ⊂ B A\subset B AB,则有
      P ( B − A ) = P ( B ) − P ( A ) P(B-A)=P(B)-P(A) P(BA)=P(B)P(A)
      P ( B ) ≥ P ( A ) P(B)\geq P(A) P(B)P(A)

   ④对于任意一事件 A A A,有 P ( A ) ≤ 1 P(A)\leq 1 P(A)1
   ⑤(逆事件的概率)对于任一事件 A A A,有
            P ( A ‾ ) = 1 − P ( A ) P(\overline{A})=1-P(A) P(A)=1P(A)

   ⑥对于事件空间 S S S中的任意两个事件 A A A B B B,有
            P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A\cup B)=P(A)+P(B)-P(A\cap B) P(AB)=P(A)+P(B)P(AB)

三、条件概率

假设 A , B A,B A,B是两个事件,并且 P ( A ) > 0 P(A) > 0 P(A)>0,则事件 A A A已经发生的条件下(A的逆事件不发生),事件 B B B发生的概率称为事件 A A A发生条件下事件 B B B发生的条件概率,即 P ( B ∣ A ) P(B|A) P(BA)。我们知道条件概率的计算公式是:
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)

其中 P ( A B ) P(AB) P(AB)为事件 A A A和事件 B B B同时发生的概率,称为事件 A A A和事件 B B B联合概率,有的时候也记为 P ( A ⋅ B ) P(A \cdot B) P(AB)或者 P ( A ∩ B ) P(A \cap B) P(AB)

从上式子也可得到:
P ( A B ) = P ( B ∣ A ) P ( A ) P(AB)=P(B|A) P(A) P(AB)=P(BA)P(A)

该公式称为概率的乘法公式。

四、全概率公式

全概率公式是概率论中的一个基本公式,它提供了一种计算复杂事件概率的方法,特别是当这些事件可以分解为几个互斥的子事件时。全概率公式允许我们将一个复杂事件的概率分解为几个互斥且完备的子事件的概率之和。

n n n个事件 H 1 , H 2 , . . . , H n H_1,H_2,...,H_n H1,H2,...,Hn相互独立且互斥,共同组成整个事件空间 S S S。他们的概率和等于1,并且任意两个事件都不同时发生。也就是说
P ( H 1 ∪ H 2 ∪ . . . ∪ H n ) = 1 P(H_1 \cup H_2 \cup ...\cup H_n)=1 P(H1H2...Hn)=1
并且对于任意
i ≠ i i≠i i=i 有:
P ( A ∩ B ) = 0 P(A\cap B)=0 P(AB)=0

现在,我们想要计算某个事件 A A A 的概率,假设事件 A A A H 1 , H 2 , . . . , H n H_1,H_2,...,H_n H1,H2,...,Hn之间存在某些概率关系,则
P ( A ) = ∑ i = 1 m P ( A ∣ H i ) ∗ P ( H i ) P(A)=\sum_{i=1}^mP(A|H_i)*P(H_i) P(A)=i=1mP(AHi)P(Hi)

以上就是全概率公式。

如果将样本空间划分成了 n n n份,则事件 A A A发生的概率就等于它在这 n n n份中发生的概率的加权和。

全概率公式的关键在于,它允许我们通过已知的条件概率和各个互斥事件的概率来计算事件 A A A的概率,即使我们不知道 A A A 直接发生的概率。这种方法在统计学、信号处理、机器学习等领域中非常有用,特别是在处理复杂系统和决策问题时

五、贝叶斯公式

   贝叶斯公式,也被称为贝叶斯规则,是概率论中的一个重要工具,用于描述两个条件概率之间的关系。
 
   尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。

  贝叶斯公式又被称为贝叶斯定理、贝叶斯规则是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。

先验概率:
    事情还没有发生,要求这件事发生的可能性的大小的问题。

后验概率:
    它是“执果寻因”的问题,也就是,事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小的问题。

  通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。

P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。

举例:如果一个人总做好事,那么他是好人的可能性就很大,这就是一个后验概率的问题。

由于事件 A A A B B B的联合概率为
P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(AB)P(B)
也就是
P ( A B ) = P ( B ∣ A ) P ( A ) P(AB)=P(B|A)P(A) P(AB)=P(BA)P(A)
因此
P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(A|B)P(B) = P(B|A)P(A) P(AB)P(B)=P(BA)P(A)
由此可以得到
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A)=\frac{P(A|B)P(B)}{P(A)} P(BA)=P(A)P(AB)P(B)
以上就是贝叶斯公式

将全概率公式带入贝叶斯公式,则有:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) ∑ i = 1 m P ( A ∣ H i ) ∗ P ( H i ) P(B|A)=\frac{P(A|B)P(B)}{\sum_{i=1}^mP(A|H_i)*P(H_i)} P(BA)=i=1mP(AHi)P(Hi)P(AB)P(B)

贝叶斯公式在机器学习领域有极其重要的地位,很多机器学习算法都是基于该公式。

六、概率的计算

1、第一类方法:求频率

    当实验次数很大时,事件发生的频率会趋近于事件的概率,因而可以用事件的频率来代替事件的概率。
    因而,如果我们将试验重复大量次数,计算频率 f n ( A ) f_n(A) fn(A),用它来表征事件 A A A发生的可能性的大小(即概率)是合适的。这就是计算概率值的第一种方法。

    比如说,如果一个骰子是不规则的,我们就可以通过将骰子掷很多次来得到骰子的各个点的取值,即概率。

2、第二类方法:古典概型的概率值计算

对于古典概型,其概率值很容易计算:如果样本空间中单位事件的数量是 n n n个,则每个单位事件发生的概率就是 1 n \frac {1}{n} n1

3、第三类方法:利用概率的性质以及条件概率、全概率公式、贝叶斯公式

① 全概率公式求概率举例

某电子设备厂所用原件是由三家配件厂提供,根据提供记录由以下数据:

配件厂次品率提供配件份额
10.020.15
20.010.80
30.030.05

设这三家工厂的产品在仓库中是均匀混合的,且无区别的标志。在仓库中随机取一个元件,求它是次品的概率;在仓库中随机的区一个元件,若已知取到的是次品,为分析此次品出自何厂,需求出此次品由三家工厂生产的概率分别是多少,试求这些概率。

解:
A A A表示取到的是一个次品, B i ( i = 1 , 2 , 3 ) B_i(i=1,2,3) Bi(i=1,2,3)表示所取到的产品是由第 i i i家工厂提供的。易知, B 1 , B 2 , B 3 B_1,B_2,B_3 B1,B2,B3是样本空间 S S S的一个划分,且有
P ( B 1 ) = 0.15 ; P ( B 2 = 0.80 ) ; P ( B 3 ) = 0.05 P(B_1)=0.15;P(B_2=0.80);P(B_3)=0.05 P(B1)=0.15;P(B2=0.80);P(B3)=0.05
P ( A ∣ B 1 ) = 0.02 ; P ( A ∣ B 2 ) = 0.01 ; P ( A ∣ B 3 ) = 0.03 P(A|B_1)=0.02;P(A|B_2)=0.01;P(A|B_3)=0.03 P(AB1)=0.02;P(AB2)=0.01;P(AB3)=0.03

由全概率公式

P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + P ( A ∣ B 3 ) P ( B 3 ) P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+P(A|B_3)P(B_3) P(A)=P(AB1)P(B1)+P(AB2)P(B2)+P(AB3)P(B3)
            =0.0125

 
由贝叶斯公式
P ( B 1 ∣ A ) = P ( A ∣ B 1 ) P ( B 1 ) P ( A ) = 0.02 × 0.15 0.0125 P(B_1|A)=\frac{P(A|B_1)P(B_1)}{P(A)}=\frac{0.02\times 0.15}{0.0125} P(B1A)=P(A)P(AB1)P(B1)=0.01250.02×0.15
P ( B 2 ∣ A ) = 0.64 P(B_2|A)=0.64 P(B2A)=0.64
P ( B 3 ∣ A ) = 0.12 P(B_3|A)=0.12 P(B3A)=0.12

以上结果表明,这只次品来自第2家工厂的概率可能性最大。

② 贝叶斯公式求概率举例
假定你在广州的大街上,遇到一个黑人,请问他来自哪个洲?

这个问题恍然一看没有思路,但可以如下所想:
地球上有6大洲(此处忽略南极洲),亚洲、欧洲、非洲、南美洲、北美洲、大洋洲,如果我们能够计算出黑人来自这6大洲的概率,比如0.05,0.05,0.4,0.2,0.2,0.1,则问题就得到了解决。但是计算黑人来自各大洲的概率依旧不太容易。

计算这个黑人的概率是后验概率,它通常不容易直接计算,但是它的逆向问题通常反而容易计算。对于该问题来说,逆问题就是非洲人口中黑人的概率,这显然容易计算。将非洲人口中黑人数量除以非洲总人口就是非洲人口中黑人的概率。

如果我们记:
P ( A ) = 黑人的概率 P(A)=黑人的概率 P(A)=黑人的概率
P ( B ) = 非洲人的概率 P(B)=非洲人的概率 P(B)=非洲人的概率
P ( B ∣ A ) = 一个黑人来自非洲的概率 P(B|A)=一个黑人来自非洲的概率 P(BA)=一个黑人来自非洲的概率
P ( A ∣ B ) = 非洲人中黑人的概率 P(A|B)=非洲人中黑人的概率 P(AB)=非洲人中黑人的概率

根据贝叶斯公式有:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A)=\frac{P(A|B)P(B)}{P(A)} P(BA)=P(A)P(AB)P(B)

P ( B ) P(B) P(B)=非洲人的概率,将非洲总人口除以世界总人口即可得到
P ( A ) P(A) P(A)=黑人的概率,可以用全世界黑人总人口除以全世界总人口,如果这样不太容易求得,可以通过全概率公式来求,即黑人的概率等于黑人在各个洲的概率与各个洲出现的概率的乘积的和。
P ( A ) = ∑ i = 1 m P ( A ∣ H i ) ∗ P ( H i ) P(A)=\sum_{i=1}^mP(A|H_i)*P(H_i) P(A)=i=1mP(AHi)P(Hi)

  • 18
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值