【轩说AI】贝叶斯统计+概率图模型

最新推荐文章于 2023-06-25 14:44:11 发布

留下一些记忆

最新推荐文章于 2023-06-25 14:44:11 发布

阅读量366

点赞数

文章标签：人工智能机器学习概率论

本文链接：https://blog.csdn.net/m0_57089390/article/details/129237548

版权

贝叶斯理论

贝叶斯公式到底在说什么？

贝叶斯公式就是在描述，你有多大把握能相信一件证据？（how much you can trust the evidence）

似然函数

$P (X ∣ θ)$

其中θ是概率模型的未知参数

先验概率

$P (θ)$

后验概率

$P (θ ∣ X) = P (θ) * P (X ∣ θ) / P (X)$

贝叶斯公式

A：车被砸了

B：警报响了

P(A|B)警报响了是因为车被砸了的概率=P(A)车被砸了的概率×P(B|A)车被砸了时警报会响的概率÷P(B)警报响了的概率

假如观测到了警报响了，那么人们会忽略警报的原因是：先验概率P(A)告诉我们，车被砸了的概率不大。所以，尽管P(B|A)=1，即车被砸了一定会报警，但是由于先验概率低，人们会认为是其他因素导致。比如先验概率更大的P(_{A)发生了，尽管P(B|}A)<P(B|A)

做判断的时候，要考虑所有的因素。一个本来就难以发生的事情，就算出现某个证据和他强烈相关，也要谨慎。证据很可能来自别的虽然不是很相关，但发生概率较高的事情。老板骂你，不一定是你把什么工作搞砸了，可能只是他今天出门前和太太吵了一架。

最大似然估计（MLE）

对于一个含有未知参数的概率模型，我们通过n次重复独立实验的结果来估计未知参数。

我们用似然函数的n次连乘积表示这n次独立重复实验的结果发生的概率L。我们认为这n次试验的结果能够发生，是因为它是大概率事件，于是最大化P(X|θ)，对应的θ的取值就是答案。

例：铸币厂制作了一批硬币，投硬币看这硬币是否均匀。模型：0-1分布,P(正面)=θ

数据：反正正正正反正正正反
$L=θ^7(1-θ)^3\\θ=argmaxL=0.7$
显然，这个结果受“此次试验”的影响太大，需要引入先验概率。

MLE中并未运用先验概率和后验概率的知识，只运用了似然函数

最大后验概率估计（MAP)

最大后验概率估计提出了一个很先进的想法：

参数θ并不是一个单纯的未知常量，θ也是服从某个分布的随机变量。并且在存在先验分布P(θ)和后验分布P(θ|X)。并通过贝叶斯定理，把参数的先验和后验用似然函数链接在一起

MAP和MSE的不同在于，MAP考虑了先验概率的作用，θ的取值不仅需要让“似然函数”，θ本身的概率也要高。

对于硬币问题，假设P(θ)为均值0.5，方差0.1的高斯函数。实际上，在θ=0.558时取得最大值。

最后，那要怎样才能说服一个贝叶斯派相信θ = 0.7 \theta = 0.7θ=0.7呢？你得多做点实验。。

如果做了1000次实验，其中700次都是正面向上，如果仍然假设P ( θ ) 为均值0.5，方差0.1的高斯函数。在θ = 0.696处，MAP函数取得最大值。这样，就算一个考虑了先验概率的贝叶斯派，也不得不承认得把θ估计在0.7附近了。

贝叶斯估计

贝叶斯理论引出了概率图模型，最难的问题在于分母求积分，也就是求积分问题->引出MCMC

频率派引出了统计机器学习，也就是建模，损失函数，梯度下降的优化问题

最大似然估计和最大后验概率估计的区别

相信读完上文，MLE和MAP的区别应该是很清楚的了。MAP就是多个作为因子的先验概率P(θ)。或者，也可以反过来，认为MLE是把先验概率P(θ)认为等于1，即认为θ是均匀分布。

概率图模型

2.2：贝叶斯网络_哔哩哔哩_bilibili

概率图模型初步：从贝叶斯网络到HMM模型_哔哩哔哩_bilibili

下面一离散型随机变量为例。

二维联合概率密度P(X1,X2)，假如每个变量有3种取值，那么概率分布的表格中需要参数：3^2-1=8个参数。

高维联合概率密度P(X1,X2,X3,X4…Xk)，每个变量有m种取值

对于变量间的是否独立均“不可知”，则默认都是相关的，需要参数 $m^k-1$ 个参数（也就是离散型概率分布律表中数字的数量-1）。
变量间都是相互独立的，则需要参数 $k (m - 1)$ 个
高维度联合概率表写作如下

可见，高维联合概率密度由于巨大的参数量一般难以建模，而“相互独立”这个条件可以大大降低参数的个数。

我们生活中的模型，一般既不是“都相互独立”，也不是“都相互依赖”，而是介于二者之间。我们用概率图模型可以对这种常见情况建模。

概率图模型可以对高维的概率密度函数进行分解，将一个复杂的联合概率模型分解为一些简单条件概率模型的组合，并用图的方式，直观地表示出随机变量的依赖关系与独立关系，进而减少参数、简化模型复杂度。

有向概率图模型——贝叶斯网络
无向概率图模型——马尔科夫随机场

贝叶斯网络

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qlBixSft-1677466300459)(./概率图模型.assets/QQ截图20230122143144.jpg)]

上述贝叶斯网络的表示联合概率分布的公式是由“条件独立性”得到的（后面细说）

用概率图分解的角度解释上面的高维联合概率分布

P(X1,X2,X3…Xk)=P(X1)P(X2|X1)P(X3|X1,X2)…

概率图中的节点	需要参数个数
P(X1)	m-1
P(X2\|X1)	m*(m-1)
P(X3\|X1,X2)	m^2*(m-1)
k个节点合计	m^k-1

例：假设有四个二值变量 𝑋1 , 𝑋2 , 𝑋3 , 𝑋4，在不知道这几个变量依赖关系的情况下，可以用一个联合概率表来记录每一种取值的概率𝑝(𝒙1∶4)，共需要 $2^4 −1 = 15$ 个参数。假设在已知𝑋1 时，𝑋2 和𝑋3 独立；在已知𝑋2 和𝑋3 时，𝑋4 也和𝑋1 独立。

那么联合概率可以写作：
$p (x) = p (x 1, x 2, x 3, x 4) = p (x 1) p (x 2∣ x 1) p (x 3∣ x 1) p (x 4∣ x 2, x 3)$

概率图中的节点	需要参数个数
P(X1)	1
P(X2\|X1)	2*(2-1)=2
P(X3\|X1)	2*(2-1)=2
p(x4\|x2,x3)	2^2*(2-1)=4
合计参数	9

例：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fG3FNbTM-1677466300460)(./概率图模型.assets/QQ截图20230122143016.jpg)]

Difficulty和Intelligence是先验概率，其他是条件概率

条件独立性与概率流动

概率的流动性（有效迹）

给定观测变量的子集Z，如果在X1和Xn之间存在一条路径（跟箭头方向无关），使得二者的概率取值能够相互影响，那么称这条路径为有效迹。

比如在Z=∅时，下图的a,b,c的X1-X3之间概率流动（存在有效迹），d图中X1-X3则没有。

d-分离

如果在给定Z时，X节点-Y节点之间不存在有效迹，则称是d分离的，记作d-sep(X,Y|Z)

比如在Z={X2}时，下图的a,b,c的X1-X3之间d分离，d图中X1-X3则概率流动。

如果概率图模型G满足d-sep(X,Y|Z)，则X与Y条件独立。

贝叶斯网络中条件独立性的分析

a图：
$X1与X3概率独立|X2\\反之不独立（概率流动）$
b图：
$X1与X3概率独立|X2\\反之不独立（概率流动）$
c图：
$X1与X3概率独立|X2\\反之不独立（概率流动）$
d图：
$X1与X3概率流动|X2\\反之独立$
“反之”意味着X2为隐变量（不可观测变量）

局部马尔可夫性质

对一个更一般的贝叶斯网络，其局部马尔可夫性质为：每个随机变量在给定父节点的情况下，条件独立于它的非后代节点。

这也就解释了贝叶斯网络链式法则的合理性。
$P (X) = \prod p (X i ∣ P a re n t s (i))$

贝叶斯网络联合概率展开式的合理性

下面用实例展示：条件独立性（局部马尔科夫性质）对公式进行拆解后，就是贝叶斯网络链式法则根据图中的“parent”关系得到的计算式。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-58TrGRQk-1677466300461)(./概率图模型.assets/QQ截图20230122191409.jpg)]

蓝色箭头表示通过条件独立性优化后得到的条件概率。

**最终我们发现：通过条件独立性优化后的式子，就是“看图找亲戚”的贝叶斯网络公式得到的计算式。**综上，我们解释了什么是贝叶斯网络，以及贝叶斯网络联合概率分布的因子分解公式的合理性。

应用

根据题中的例子，理解依靠概率图的推断的物理意义。计算部分还没到。

因果推断

顺着箭头推断

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gMAJc0bb-1677466300461)(./概率图模型.assets/QQ截图20230122195759.jpg)]

证据推断

逆着箭头推断（已知结果求证据)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VUmyxXl4-1677466300461)(./概率图模型.assets/QQ截图20230122195355.jpg)]

交叉因果推断

双向箭头推断

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WSXCIAW7-1677466300462)(./概率图模型.assets/QQ截图20230122195655.jpg)]

留下一些记忆

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【轩说AI】贝叶斯统计+概率图模型

MAP是只需要求出P(θ|X)取得最大值时θ的值（众数），而标准的贝叶斯估计需要完整的求出后验概率P(θ|X)的函数表达式。P(A|B)警报响了是因为车被砸了的概率=P(A)车被砸了的概率×P(B|A)车被砸了时警报会响的概率÷P(B)警报响了的概率。MAP和MSE的不同在于，MAP考虑了先验概率的作用，θ的取值不仅需要让“似然函数”，θ本身的概率也要高。我们要估计的是在已知实验结果情况下，概率模型参数的取值，也就是我们需要求出使P(θ|X)最大的θ的值。在已知𝑋2 和𝑋3 时，𝑋4 也和𝑋1 独立。
复制链接

扫一扫