《贝叶斯网引论》之一:概率论基础

本章主要是理清概率论中的一些概念,包括:

  1. 基本概念:
  • 样本空间:随机实验的所有可能结果组成的空间
  • 样本点/原子事件:随机实验的任一可能结果
  • 事件:样本空间的子集,原子事件的集合
  • 概率测度:给样本空间中的每一事件赋予一个0~1之间的数值(即概率),具有规范性、非负性和有限可加性
  • 随机变量:定义在样本空间上的函数,取值随实验结果而定,随机变量的所有可能取值的集合称为值域/状态空间,即P(X)
  • 概率函数:在样本空间中,一次随机试验的结果在令随机变量X取值为x的所有可能结果的集合中的概率,且令x在状态空间上变动,即P(X=x)
  1. 概率的三种解释:
  • 古典解释:前提是所有可能结果出现的可能性相等
  • 频率解释:前提是实验可以在同等条件下无限次重复
  • 主观解释:即我们认为的主观概率
  1. 多元概率分布:
  • 联合概率分布,经常可以被表示成一张表
  • 边缘概率分布,经常出现在联合概率分布表的边缘

X = { X 1 , X 2 , . . . , X n } X=\{X_1,X_2,...,X_n\} X={X1,X2,...,Xn} Y Y Y X X X的真子集, Z = X Z=X Z=X \ Y Y Y,则边缘分布 P ( X 1 , X 2 , . . . , X n ) P(X_1,X_2,...,X_n) P(X1,X2,...,Xn)与联合分布 P ( Y ) P(Y) P(Y)的关系为: P ( Y ) = ∑ Z P ( X 1 , X 2 , . . . , X n ) P(Y)=\sum_ZP(X_1,X_2,...,X_n) P(Y)=ZP(X1,X2,...,Xn)

  • 条件概率分布,注意链式规则

注:联合概率分布表所有值之和为1,条件概率分布表每一行所有值之和为1,即需要对每一行做规范化处理

  1. 边缘独立与条件独立
  • 边缘独立: P ( X , Y ) = P ( X ) P ( Y ) P(X,Y)=P(X)P(Y) P(X,Y)=P(X)P(Y)
  • 条件独立: P ( X , Y ∣ Z ) = P ( X ∣ Z ) P ( Y ∣ Z ) P(X,Y|Z)=P(X|Z)P(Y|Z) P(X,YZ)=P(XZ)P(YZ)

注:条件独立并不意味着在Z未知的时候,X与Y相互独立,可能只是Y包含的关于X的信息也包含在Z中

  1. 贝叶斯定理
  2. 信息论基础
  • Jensen不等式:其实就是凹函数定义的推广, f ( ∑ i = 1 n p i x i ) > = ∑ i = 1 n p i f ( x i ) f(\sum_{i=1}^np_ix_i)>=\sum_{i=1}^np_if(x_i) f(i=1npixi)>=i=1npif(xi)

logx,-xlogx,-xlogx-(1-x)log(1-x)都是常见的凹函数

  • 熵: H ( X ) = − ∑ X P ( X ) l o g P ( X ) H(X)=-\sum_XP(X)logP(X) H(X)=XP(X)logP(X)

  • 联合熵: H ( X , Y ) = − ∑ X , Y P ( X , Y ) l o g P ( X , Y ) H(X,Y)=-\sum_{X,Y}P(X,Y)logP(X,Y) H(X,Y)=X,YP(X,Y)logP(X,Y)

  • 条件熵:

    • H ( X ∣ Y = y ) = − ∑ X P ( X ∣ Y = y ) l o g P ( X ∣ Y = y ) H(X|Y=y)=-\sum_XP(X|Y=y)logP(X|Y=y) H(XY=y)=XP(XY=y)logP(XY=y),表示已知Y=y后,X的不确定性
    • H ( X ∣ Y ) = ∑ y P ( Y = y ) H ( X ∣ Y = y ) = − ∑ X , Y P ( X , Y ) l o g P ( X ∣ Y ) H(X|Y)=\sum_yP(Y=y)H(X|Y=y)=-\sum_{X,Y}P(X,Y)logP(X|Y) H(XY)=yP(Y=y)H(XY=y)=X,YP(X,Y)logP(XY),表示未知Y的取值时,对观测到Y的取值后X剩余的不确定性的期望

    注: H ( X ∣ Y = y ) H(X|Y=y) H(XY=y)可能比 H ( X ) H(X) H(X)大, H ( X ∣ Y ) H(X|Y) H(XY)肯定小于 H ( X ) H(X) H(X)

    熵的链式规则: H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y) H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)

  • 互信息: I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = ∑ X , Y P ( X , Y ) l o g P ( X , Y ) P ( X ) P ( Y ) I(X;Y)=H(X)-H(X|Y)=\sum_{X,Y}P(X,Y)log\frac{P(X,Y)}{P(X)P(Y)} I(X;Y)=H(X)H(XY)=X,YP(X,Y)logP(X)P(Y)P(X,Y)

互信息的对称性: I ( X ; Y ) = I ( Y ; X ) I(X;Y)=I(Y;X) I(X;Y)=I(Y;X)

结合韦恩图理解熵,联合熵,条件熵,互信息非常容易

互信息其实就是联合概率和边缘概率乘积的相对熵

  • 相对熵/KL散度: K L ( P , Q ) = ∑ X P ( X ) l o g P ( X ) Q ( X ) KL(P,Q)=\sum_XP(X)log\frac{P(X)}{Q(X)} KL(P,Q)=XP(X)logQ(X)P(X),可以简单理解相对熵是衡量概率分布P(X)和Q(X)之间的距离,因此相对熵的取值非负,但它又不是简单的距离,因为其不具有对称性
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值