贝叶斯公式证明及Bayesain在机器学习重要地位的理解


前言

“概率论只不过是把常识用数学公式表达了出来。”                ——拉普拉斯

1、条件概率

  设 A A A B B B是样本空间 Ω \Omega Ω 中的两事件,若 P ( B ) > 0 P(B)>0 P(B)>0,则称
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)
为" B B B发生下 A A A的条件概率",简称条件概率。 即有乘法公式 P ( A B ) = P ( B ) P ( A ∣ B ) P(AB)=P(B)P(A|B) P(AB)=P(B)P(AB).

2、全概率公式

  设 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn 为样本空间 Ω \Omega Ω 的一个分割(见下图),即 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn 互不相容,且 ⋃ i = 1 n B i = Ω \bigcup^n_{i=1}{B_i}=\Omega i=1nBi=Ω ,如果 P ( B i ) > 0 , i = 1 , 2 , . . . , n P(B_i)>0,i=1,2,...,n P(Bi)>0,i=1,2,...,n ,则对任一事件 A A A
P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(A)=\sum^n_{i=1}P(B_i)P(A|B_i) P(A)=i=1nP(Bi)P(ABi)

证明:
  因为
A = A Ω = A ( ⋃ i = 1 n B i ) = ⋃ i = 1 n ( A B i ) A=A\Omega=A(\bigcup^n_{i=1}{B_i})=\bigcup^n_{i=1}(AB_i) A=AΩ=A(i=1nBi)=i=1n(ABi)
A B 1 , A B 2 , . . . , A B n AB_1,AB_2,...,AB_n AB1,AB2,...,ABn,互不相容,所以由可加性得
P ( A ) = P ( A ( ⋃ i = 1 n B i ) ) = ∑ i = 1 n P ( A B i ) P(A)=P(A(\bigcup^n_{i=1}{B_i}))=\sum^n_{i=1}P(AB_i) P(A)=P(A(i=1nBi))=i=1nP(ABi)
再将 P ( A B i ) = P ( B i ) P ( A ∣ B i ) , i = 1 , 2 , . . . , n P(AB_i)=P(B_i)P(A|B_i),i=1,2,...,n P(ABi)=P(Bi)P(ABi)i=1,2,...,n,即可证全概率公式。

3、贝叶斯公式

  在乘法公式和全概率公式的基础上立即可推得如下很著名的公式。
  设 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn 为样本空间 Ω \Omega Ω 的一个分割,即 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn 互不相容,且 ⋃ i = 1 n B i = Ω \bigcup^n_{i=1}{B_i}=\Omega i=1nBi=Ω ,如果 P ( A ) > 0 , P ( B i ) > 0 , i = 1 , 2 , . . . , n P(A)>0,P(B_i)>0,i=1,2,...,n P(A)>0,P(Bi)>0,i=1,2,...,n ,则

P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) , i = 1 , 2 , . . . , n . P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum^n_{j=1}P(B_j)P(A|B_j)},i=1,2,...,n. P(BiA)=j=1nP(Bj)P(ABj)P(Bi)P(ABi),i=1,2,...,n.

证明:
  由条件概率的定义
P ( B i ∣ A ) = P ( A B i ) P ( A ) P(B_i|A)=\frac{P(AB_i)}{P(A)} P(BiA)=P(A)P(ABi)
对上式的分子用乘法公式、分母用全概率公式,
P ( A B i ) = P ( B i ) P ( A ∣ B i ) P ( A ) = ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(AB_i)=P(B_i)P(A|B_i)\\ P(A)=\sum^n_{j=1}P(B_j)P(A|B_j) P(ABi)=P(Bi)P(ABi)P(A)=j=1nP(Bj)P(ABj)
即得
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum^n_{j=1}P(B_j)P(A|B_j)} P(BiA)=j=1nP(Bj)P(ABj)P(Bi)P(ABi)
结论得证.

Bayesain在机器学习重要地位的理解

  经典的Bayesian在机器学习中如此重要,就是因为人们希望机器人能像人那样思考,而很多问题是需要计算机在已知条件下做出最佳决策的决策,而贝叶斯公式就是对人脑在已知条件下做出直觉判断的一种数学表示。

为更好的理解“贝叶斯公式就是对人脑在已知条件下做出直觉判断的一种数学表示。
假设今天的天气情况一共有3种,雨天、晴天、雪天,今天早上天上乌云密布,你需要判断今天的天气情况为哪一种,根据以往的生活经验,一般情况下都会判断为雨天,即由贝叶斯公式有:
P ( 雨 天 ∣ 乌 云 密 布 ) = P ( 雨 天 ) P ( 乌 云 密 布 ∣ 雨 天 ) P ( 雨 天 ) P ( 乌 云 密 布 ∣ 雨 天 ) + P ( 晴 天 ) P ( 乌 云 密 布 ∣ 晴 天 ) + P ( 雪 天 ) P ( 乌 云 密 布 ∣ 雪 天 ) = 1 P(雨天|乌云密布)=\frac{P(雨天)P(乌云密布|雨天)}{P(雨天)P(乌云密布|雨天)+P(晴天)P(乌云密布|晴天)+P(雪天)P(乌云密布|雪天)}=1 P()=P()P()+P()P()+P()P()P()P()=1
在过去的生活中,雨天与乌云密布一同出现的概率极高,即对一个事件的经验判断(左式),是通过以往事件的学习得到的(右式),且这种学习所需的数据相对较易获取,机器学习就是通过右式的思想,结合已知数据来学习这种“经验判别能力”(左式)。

左式,经验判断;右式,学习过程。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bigdataxy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值