【轩说AI】贝叶斯统计+概率图模型

贝叶斯理论

贝叶斯公式到底在说什么?

贝叶斯公式就是在描述,你有多大把握能相信一件证据?(how much you can trust the evidence)

似然函数

P ( X ∣ θ ) P(X|θ) P(Xθ)

其中θ是概率模型的未知参数

先验概率

P ( θ ) P(θ) P(θ)

后验概率

P ( θ ∣ X ) = P ( θ ) ∗ P ( X ∣ θ ) / P ( X ) P(θ|X)=P(θ)*P(X|θ)/P(X) P(θX)=P(θ)P(Xθ)/P(X)

贝叶斯公式

P ( A ∣ B ) = P ( A ) P ( B ∣ A ) / P ( B ) = P ( A ) P ( B ∣ A ) / [ P ( A ) P ( B ∣ A ) + P ( ∼ A ) P ( B ∣ ∼ A ) ] P(A|B)=P(A)P(B|A)/P(B)\\=P(A)P(B|A)/[P(A)P(B|A)+P(\sim A)P(B|\sim A)] P(AB)=P(A)P(BA)/P(B)=P(A)P(BA)/[P(A)P(BA)+P(A)P(BA)]

A:车被砸了

B:警报响了

P(A|B)警报响了是因为车被砸了的概率=P(A)车被砸了的概率×P(B|A)车被砸了时警报会响的概率÷P(B)警报响了的概率

假如观测到了警报响了,那么人们会忽略警报的原因是:先验概率P(A)告诉我们,车被砸了的概率不大。所以,尽管P(B|A)=1,即车被砸了一定会报警,但是由于先验概率低,人们会认为是其他因素导致。比如先验概率更大的P(A)发生了,尽管P(B|A)<P(B|A)

做判断的时候,要考虑所有的因素。一个本来就难以发生的事情,就算出现某个证据和他强烈相关,也要谨慎。证据很可能来自别的虽然不是很相关,但发生概率较高的事情。 老板骂你,不一定是你把什么工作搞砸了,可能只是他今天出门前和太太吵了一架。

最大似然估计(MLE)

X i ∼ ( i i d ) P ( x ∣ θ ) θ ∗ = a r g m a x P ( X ∣ θ ) = a r g m a x P ( X 1 , X 2 , . . . X n ∣ θ ) = a r g m a x Π P ( X i ∣ θ ) = a r g m a x Σ l o g P ( X i ∣ θ ) Xi\sim (iid) P(x|\theta) \\θ*=argmaxP(X|θ)=argmaxP(X1,X2,...Xn|\theta)\\=argmax\Pi P(Xi|θ)=argmax\Sigma logP(Xi|\theta) Xi(iid)P(xθ)θ=argmaxP(Xθ)=argmaxP(X1,X2,...Xnθ)=argmaxΠP(Xiθ)=argmaxΣlogP(Xiθ)

对于一个含有未知参数的概率模型,我们通过n次重复独立实验的结果来估计未知参数。

我们用似然函数的n次连乘积表示这n次独立重复实验的结果发生的概率L。我们认为这n次试验的结果能够发生,是因为它是大概率事件,于是最大化P(X|θ),对应的θ的取值就是答案。


例:铸币厂制作了一批硬币,投硬币看这硬币是否均匀。模型:0-1分布,P(正面)=θ

数据:反正正正正反正正正反
L = θ 7 ( 1 − θ ) 3 θ = a r g m a x L = 0.7 L=θ^7(1-θ)^3\\θ=argmaxL=0.7 L=θ7(1θ)3θ=argmaxL=0.7
显然,这个结果受“此次试验”的影响太大,需要引入先验概率。

MLE中并未运用先验概率和后验概率的知识,只运用了似然函数

最大后验概率估计(MAP)

最大后验概率估计提出了一个很先进的想法:

参数θ并不是一个单纯的未知常量,θ也是服从某个分布的随机变量。并且在存在先验分布P(θ)和后验分布P(θ|X)。并通过贝叶斯定理,把参数的先验和后验用似然函数链接在一起

我们要估计的是在已知实验结果情况下,概率模型参数的取值,也就是我们需要求出使P(θ|X)最大的θ的值。
θ = a r g m a x P ( θ ∣ X ) P ( θ ∣ X ) = P ( θ ) P ( X ∣ θ ) / P ( X ) 所以: θ = a r g m a x P ( θ ) ∏ P ( X i ∣ θ ) \theta=argmaxP(\theta|X)\\ P(\theta|X)=P(\theta)P(X|\theta)/P(X)\\ 所以:\theta=argmaxP(\theta)∏P(Xi|\theta) θ=argmaxP(θX)P(θX)=P(θ)P(Xθ)/P(X)所以:θ=argmaxP(θ)P(Xiθ)
上述的公式可以用前面的离散化例子:警报响了的例子理解

MAP和MSE的不同在于,MAP考虑了先验概率的作用,θ的取值不仅需要让“似然函数”,θ本身的概率也要高。

对于硬币问题,假设P(θ)为均值0.5,方差0.1的高斯函数。实际上,在θ=0.558时取得最大值。

最后,那要怎样才能说服一个贝叶斯派相信θ = 0.7 \theta = 0.7θ=0.7呢?你得多做点实验。。

如果做了1000次实验,其中700次都是正面向上,如果仍然假设P ( θ ) 为均值0.5,方差0.1的高斯函数。在θ = 0.696处,MAP函数取得最大值。这样,就算一个考虑了先验概率的贝叶斯派,也不得不承认得把θ估计在0.7附近了。

贝叶斯估计

MAP是只需要求出P(θ|X)取得最大值时θ的值(众数),而标准的贝叶斯估计需要完整的求出后验概率P(θ|X)的函数表达式。难点在于分母的P(X)需要展开成难以求出的积分,这个积分需要在整个参数域中积分:
P ( θ ∣ X ) = P ( θ ) P ( X ∣ θ ) / P ( X ) = P ( θ ) P ( X ∣ θ ) / ∫ P ( θ ) P ( X ∣ θ ) d θ P(\theta|X)=P(\theta)P(X|\theta)/P(X)\\ =P(\theta)P(X|\theta)/\int P(\theta)P(X|\theta)d\theta P(θX)=P(θ)P(Xθ)/P(X)=P(θ)P(Xθ)/P(θ)P(Xθ)dθ
作用:贝叶斯预测

输入一个新数据为x的概率是 :
P ( x ∣ X ) = ∫ P ( x , θ ∣ X ) d θ = ∫ P ( x ∣ θ ) P ( θ ∣ X ) d θ P ( x ∣ θ ) 是似然函数,已知; P ( θ ∣ X ) 就是贝叶斯估计出的后验概率。 P(x|X)=\int P(x,\theta|X)d\theta\\=\int P(x|\theta)P(\theta|X)d\theta\\ P(x|\theta)是似然函数,已知;P(\theta|X)就是贝叶斯估计出的后验概率。 P(xX)=P(x,θX)dθ=P(xθ)P(θX)dθP(xθ)是似然函数,已知;P(θX)就是贝叶斯估计出的后验概率。


贝叶斯理论引出了概率图模型,最难的问题在于分母求积分,也就是求积分问题->引出MCMC

频率派引出了统计机器学习,也就是建模,损失函数,梯度下降的优化问题

最大似然估计和最大后验概率估计的区别

相信读完上文,MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。或者,也可以反过来,认为MLE是把先验概率P(θ)认为等于1,即认为θ是均匀分布。

概率图模型

2.2:贝叶斯网络_哔哩哔哩_bilibili

概率图模型初步:从贝叶斯网络到HMM模型_哔哩哔哩_bilibili

下面一离散型随机变量为例。

二维联合概率密度P(X1,X2),假如每个变量有3种取值,那么概率分布的表格中需要参数:3^2-1=8个参数。

高维联合概率密度P(X1,X2,X3,X4…Xk),每个变量有m种取值

  • 对于变量间的是否独立均“不可知”,则默认都是相关的,需要参数 m k − 1 m^k-1 mk1个参数(也就是离散型概率分布律表中数字的数量-1)。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vWJL1h3Q-1677466300458)(./概率图模型.assets/概率图1.png)]

  • 变量间都是相互独立的,则需要参数 k ( m − 1 ) k(m-1) k(m1)

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FH3r85ip-1677466300459)(./概率图模型.assets/概率图2.png)]

  • 高维度联合概率表写作如下

可见,高维联合概率密度由于巨大的参数量一般难以建模,而“相互独立”这个条件可以大大降低参数的个数。

我们生活中的模型,一般既不是“都相互独立”,也不是“都相互依赖”,而是介于二者之间。我们用概率图模型可以对这种常见情况建模。

概率图模型可以对高维的概率密度函数进行分解,将一个复杂的联合概率模型分解为一些简单条件概率模型的组合,并用图的方式,直观地表示出随机变量的依赖关系与独立关系,进而减少参数、简化模型复杂度。

  • 有向概率图模型——贝叶斯网络
  • 无向概率图模型——马尔科夫随机场

贝叶斯网络

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qlBixSft-1677466300459)(./概率图模型.assets/QQ截图20230122143144.jpg)]

上述贝叶斯网络的表示联合概率分布的公式是由“条件独立性”得到的(后面细说)

用概率图分解的角度解释上面的高维联合概率分布

P(X1,X2,X3…Xk)=P(X1)P(X2|X1)P(X3|X1,X2)…

概率图中的节点需要参数个数
P(X1)m-1
P(X2|X1)m*(m-1)
P(X3|X1,X2)m^2*(m-1)
k个节点合计m^k-1

例: 假设有四个二值变量 𝑋1 , 𝑋2 , 𝑋3 , 𝑋4,在不知道这几个变量依赖关系的情况下,可以用一个联合概率表来记录每一种取值的概率𝑝(𝒙1∶4),共需要 2 4 − 1 = 15 2^4 −1 = 15 241=15个参数。假设在已知𝑋1 时,𝑋2 和𝑋3 独立;在已知𝑋2 和𝑋3 时,𝑋4 也和𝑋1 独立。

那么联合概率可以写作:
p ( x ) = p ( x 1 , x 2 , x 3 , x 4 ) = p ( x 1 ) p ( x 2 ∣ x 1 ) p ( x 3 ∣ x 1 ) p ( x 4 ∣ x 2 , x 3 ) p(x)=p(x1,x2,x3,x4)=p(x1)p(x2|x1)p(x3|x1)p(x4|x2,x3) p(x)=p(x1,x2,x3,x4)=p(x1)p(x2∣x1)p(x3∣x1)p(x4∣x2,x3)

概率图中的节点需要参数个数
P(X1)1
P(X2|X1)2*(2-1)=2
P(X3|X1)2*(2-1)=2
p(x4|x2,x3)2^2*(2-1)=4
合计参数9

例:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fG3FNbTM-1677466300460)(./概率图模型.assets/QQ截图20230122143016.jpg)]

Difficulty和Intelligence是先验概率,其他是条件概率

条件独立性与概率流动

概率的流动性(有效迹)

给定观测变量的子集Z,如果在X1和Xn之间存在一条路径(跟箭头方向无关),使得二者的概率取值能够相互影响,那么称这条路径为有效迹。

比如在Z=∅时,下图的a,b,c的X1-X3之间概率流动(存在有效迹),d图中X1-X3则没有。

d-分离

如果在给定Z时,X节点-Y节点之间不存在有效迹,则称是d分离的,记作d-sep(X,Y|Z)

比如在Z={X2}时,下图的a,b,c的X1-X3之间d分离,d图中X1-X3则概率流动。

如果概率图模型G满足d-sep(X,Y|Z),则X与Y条件独立。

贝叶斯网络中条件独立性的分析

a图:
X 1 与 X 3 概率独立 ∣ X 2 反之不独立(概率流动) X1与X3概率独立|X2\\反之不独立(概率流动) X1X3概率独立X2反之不独立(概率流动)
b图:
X 1 与 X 3 概率独立 ∣ X 2 反之不独立(概率流动) X1与X3概率独立|X2\\反之不独立(概率流动) X1X3概率独立X2反之不独立(概率流动)
c图:
X 1 与 X 3 概率独立 ∣ X 2 反之不独立(概率流动) X1与X3概率独立|X2\\反之不独立(概率流动) X1X3概率独立X2反之不独立(概率流动)
d图:
X 1 与 X 3 概率流动 ∣ X 2 反之独立 X1与X3概率流动|X2\\反之独立 X1X3概率流动X2反之独立
“反之”意味着X2为隐变量(不可观测变量)

局部马尔可夫性质

对一个更一般的贝叶斯网络,其局部马尔可夫性质为:每个随机变量在给定父节点的情况下,条件独立于它的非后代节点。

这也就解释了贝叶斯网络链式法则的合理性。
P ( X ) = ∏ p ( X i ∣ P a r e n t s ( i ) ) P(X)=∏p(Xi|Parents(i)) P(X)=p(XiParents(i))

贝叶斯网络联合概率展开式的合理性

下面用实例展示:条件独立性(局部马尔科夫性质)对公式进行拆解后,就是贝叶斯网络链式法则根据图中的“parent”关系得到的计算式。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-58TrGRQk-1677466300461)(./概率图模型.assets/QQ截图20230122191409.jpg)]

蓝色箭头表示通过条件独立性优化后得到的条件概率。

**最终我们发现:通过条件独立性优化后的式子,就是“看图找亲戚”的贝叶斯网络公式得到的计算式。**综上,我们解释了什么是贝叶斯网络,以及贝叶斯网络联合概率分布的因子分解公式的合理性。

应用

根据题中的例子,理解依靠概率图的推断的物理意义。计算部分还没到。

因果推断

顺着箭头推断

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gMAJc0bb-1677466300461)(./概率图模型.assets/QQ截图20230122195759.jpg)]

证据推断

逆着箭头推断(已知结果求证据)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VUmyxXl4-1677466300461)(./概率图模型.assets/QQ截图20230122195355.jpg)]

交叉因果推断

双向箭头推断

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WSXCIAW7-1677466300462)(./概率图模型.assets/QQ截图20230122195655.jpg)]

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值