机器学习强基计划5-2:用一个例子通俗理解贝叶斯网络(附例题)

0 写在前面

机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用。“深”在详细推导算法模型背后的数学原理;“广”在分析多个机器学习模型:决策树、支持向量机、贝叶斯与马尔科夫决策、强化学习等。强基计划实现从理论到实践的全面覆盖,由本人亲自从底层编写、测试与文章配套的各个经典算法,不依赖于现有库,可以大大加深对算法的理解。

🚀详情:机器学习强基计划(附几十种经典模型源码)


本文主要通过案例宏观上介绍引入贝叶斯网络的动机及其概念,关于贝叶斯网络的微观结构、概率影响是如何通过网络流动的、有向分离、推断算法等概念,请看

1 从一个案例出发

例1:学生成绩 G G G不仅取决于他的智商 I I I,同时也取决于课程的难度 D D D。学生请求教授为其写推荐信,教授仅能通过查看该生的成绩单来决定推荐信的好坏 L L L。学生的智商一定程度上也影响了其高考成绩 S S S。通过一种最直观的因果关系组织本例的5个随机变量如图所示,其中除成绩可以取“优”、“良”、“中”三个值外,其他均为二值随机变量。


在这里插入图片描述

现在就这个案例提几个问题:

  1. 分析该生能获得好的推荐信的概率;
  2. 分析该生有高智商的概率;
  3. 课程成绩 G G G已知时,课程难度 D D D会影响推荐信 L L L的好坏吗?
  4. 课程难度 D D D已知时,推荐信质量 L L L会影响成绩 G G G高低吗?
  5. 智商 I I I已知时,课程成绩 G G G会影响高考成绩 S S S吗?
  6. 课程成绩 G G G已知时,课程难度 D D D会影响智商 I I I吗?

围绕这几个问题逐步引出贝叶斯网络的定义。

2 概率推断

2.1 因果推断

对于问题1,在对该生其他信息一无所知的前提下,获得好的推荐信的概率

P ( l 1 ) = ∑ g P ( l 1 ∣ g ) P ( g ) = ∑ g P ( l 1 ∣ g ) ∑ i , d P ( g ∣ i , d ) P ( i ) P ( d ) ≈ 50.2 % P\left( l^1 \right) =\sum_g{P\left( l^1|g \right) P\left( g \right)}=\sum_g{P\left( l^1|g \right) \sum_{i,d}{P\left( g|i,d \right) P\left( i \right) P\left( d \right)}}\approx 50.2\% P(l1)=gP(l1g)P(g)=gP(l1g)i,dP(gi,d)P(i)P(d)50.2%

如果得知该生智商不高,那么可能成绩 G G G不太好,从而影响其推荐信的质量

P ( l 1 ∣ i 0 ) = ∑ g P ( l 1 ∣ g ) P ( g ∣ i 0 ) = ∑ g P ( l 1 ∣ g ) ∑ d P ( g ∣ i 0 , d ) P ( d ) ≈ 38.9 % P\left( l^1|i^0 \right) =\sum_g{P\left( l^1|g \right) P\left( g|i^0 \right)}=\sum_g{P\left( l^1|g \right) \sum_d{P\left( g|i^0,d \right) P\left( d \right)}}\approx 38.9\% P(l1i0)=gP(l1g)P(gi0)=gP(l1g)dP(gi0,d)P(d)38.9%

如果进一步得知课程比较简单,那么成绩 G G G可能得到提升,从而影响其推荐信的质量

P ( l 1 ∣ i 0 , d 0 ) = ∑ g P ( l 1 ∣ g ) P ( g ∣ i 0 , d 0 ) ≈ 51.3 % P\left( l^1|i^0,d^0 \right) =\sum_g{P\left( l^1|g \right) P\left( g|i^0,d^0 \right)}\approx 51.3\% P(l1i0,d0)=gP(l1g)P(gi0,d0)51.3%

这类从原因顺流而下推断结果的过程称为因果推断预测

2.2 证据推断

对于问题2,在对该生其他信息一无所知的前提下,其具有高智商的概率即为先验概率 P ( i 1 ) = 30 % P\left( i^1 \right) =30\% P(i1)=30%,假设获知该生成绩 G G G不太好,则可以怀疑其不具有高智商

P ( i 1 ∣ g 2 ) = P ( g 2 ∣ i 1 ) P ( i 1 ) P ( g 2 ) = P ( i 1 ) ∑ d P ( g 2 ∣ i 1 , d ) P ( d ) ∑ i , d P ( g 2 ∣ i , d ) P ( i ) P ( d ) ≈ 7.89 % P\left( i^1|g^2 \right) =\frac{P\left( g^2|i^1 \right) P\left( i^1 \right)}{P\left( g^2 \right)}=\frac{P\left( i^1 \right) \sum_d{P\left( g^2|i^1,d \right) P\left( d \right)}}{\sum_{i,d}{P\left( g^2|i,d \right) P\left( i \right) P\left( d \right)}}\approx 7.89\% P(i1g2)=P(g2)P(g2i1)P(i1)=i,dP(g2i,d)P(i)P(d)P(i1)dP(g2i1,d)P(d)7.89%

这类从结果逆流而上回溯原因的过程称为证据推断解释

3 概率独立

3.1 间接因果作用

直观地,若课程成绩 G G G未知,则当课程较难时,成绩较差的可能性提升,获得好的推荐信的概率下降;同理当课程较容易时,获得好的推荐信的概率提升。相反,若课程成绩 G G G已知,则推荐信的好坏 L L L可以直接由 G G G推断——课程难度 D D D无法改变已观测的事实来影响 L L L,换言之,课程难度 D D D的影响已被包含在课程成绩 G G G的影响中

( L ⊥ D ∣ G ) ⇒ P ( l ∣ g , d ) = P ( l ∣ g ) \left( L\bot D|G \right) \Rightarrow P\left( l|g,d \right) =P\left( l|g \right) (LDG)P(lg,d)=P(lg)

3.2 间接证据作用

直观地,无论课程难度 D D D是否已知,推荐信的好坏 L L L都可以作为证据来影响对课程成绩 G G G的判断,例如即使已知课程很难,但若该生获得好的推荐信仍可以提高其课程取得高分的概率 P ( g 0 ∣ d 1 , l 1 ) > P ( g 0 ∣ d 1 ) P\left( g^0|d^1,l^1 \right) >P\left( g^0|d^1 \right) P(g0d1,l1)>P(g0d1)

3.3 共同的原因

直观地,若智商 I I I未知,则当课程成绩 G G G较好时,可以作为该生智商 I I I较高的证据,从而导致其高考成绩 S S S较好的信度上升;同理当课程成绩 G G G较差时,其高考成绩 S S S较好的信度下降。相反,若智商 I I I已知,课程成绩 G G G的好坏就不会对高考成绩 S S S的判断提供任何额外信息

( G ⊥ S ∣ I ) ⇒ P ( s 1 ∣ g 1 , i 1 ) = P ( s 1 ∣ i 1 ) \left( G\bot S|I \right) \Rightarrow P\left( s^1|g^1,i^1 \right) =P\left( s^1|i^1 \right) (GSI)P(s1g1,i1)=P(s1i1)

3.4 共同的作用

直观地,若课程成绩 G G G未知,则课程难度 D D D和智商 I I I互相独立 ,因为证据 G G G不充分,无法回溯影响对原因的判断。相反,若课程成绩 G G G已知且假设较差,则当课程较难时,可能以较大的权重解释了成绩较差原因,从而提升该生具有高智商的信度

同理,当课程较容易时,该生具有高智商的信度会急剧下降——低智商成为成绩较差的唯一解释。当某个结果的产生存在多个可能原因时,若其中某些原因很好地解释了结果,则该结果对其他原因的影响会被削弱,称为解释消除(Explaining Away),例如 P ( i 1 ∣ g 2 ) ≈ 7.9 % P\left( i^1|g^2 \right) \approx 7.9\% P(i1g2)7.9% P ( i 1 ∣ g 2 , d 1 ) ≈ 11 % P\left( i^1|g^2,d^1 \right) \approx 11\% P(i1g2,d1)11%

4 贝叶斯网络

在这里插入图片描述

贝叶斯网络(Bayesian Network)又称信念网络(Belief Network),模拟了人类推理过程中因果关系的不确定性。贝叶斯网络是一个偶对 B = ( G , P ) \mathcal{B} =\left( \mathcal{G} ,P \right) B=(G,P),即由网络拓扑结构以及概率分布两部分组成,其中

  • 网络结构 G = ( V , E ) \mathcal{G} =\left( V,E \right) G=(V,E)有向无环图(Directed Acyclic Graphical, DAG) V V V是图形中所有节点——随机变量的集合; E E E是所有有向连边——变量间因果依赖的集合,如图所示。
    在这里插入图片描述
    网络结构蕴含一系列独立性断言,其中直观的是因果独立性断言
    I l ( G ) = { ( X i ⊥ N o n D e s c e n d e n c e X i ∣ P a X i ) ∣ ∀ X i ∈ B } \mathcal{I} _l\left( \mathcal{G} \right) =\left\{ \left( X_i\bot \mathrm{NonDescendence}_{X_i}|\mathrm{Pa}_{X_i} \right) |\forall X_i\in \mathcal{B} \right\} Il(G)={(XiNonDescendenceXiPaXi)XiB}
    即在给定父节点的条件下,每个节点与其非后代节点条件独立,但后代节点在被观测到的前提下,仍可作为证据影响该节点

  • 概率分布 P P P是在网络结构 G \mathcal{G} G上的因子分解,满足
    P ( X 1 , X 2 , ⋯   , X m ) = ∏ i m P ( X i ∣ P a X i ) P\left( X_1,X_2,\cdots ,X_m \right) =\prod_i^m{P\left( X_i|\mathrm{Pa}_{X_i} \right)} P(X1,X2,,Xm)=imP(XiPaXi)
    上式也称为贝叶斯网络链式法则,单个因子称为网络的局部概率模型

5 贝叶斯网络例题分析

例2:如图所示的贝叶斯网络,令 P ( B u r g l a r y = F a l s e ∣ J h o n C a l l s = T r u e , M a r y C a l l s = T r u e ) ≡ P ( ¬ B ∣ J , M ) P\left( Burglary=False|JhonCalls=True,MaryCalls=True \right) \equiv P\left( \lnot B|J,M \right) P(Burglary=FalseJhonCalls=TrueMaryCalls=True)P(¬BJ,M),求 P ( ¬ B ∣ J , M ) P\left( \lnot B|J,M \right) P(¬BJ,M)的归一化概率

在这里插入图片描述

在这里插入图片描述


🔥 更多精彩专栏


👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇
  • 30
    点赞
  • 174
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 13
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.Winter`

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值