机器学习 (第9章概率图模型)

komjay

已于 2024-01-02 14:14:05 修改

阅读量2.5k

点赞数 23

分类专栏：机器学习文章标签：机器学习人工智能

于 2023-12-25 13:28:31 首次发布

本文链接：https://blog.csdn.net/komjay/article/details/135183534

版权

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文介绍了概率图模型中的贝叶斯网络和马尔科夫随机场，探讨了它们的结构、条件独立性判断以及在实际问题中的学习和推断，包括近似推断方法，重点讲解了隐马尔可夫模型(HMM)的应用和学习方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、学习目标

1.学习概率图模型中两种重要的模型：贝叶斯网络和马尔科夫随机场

2.学习使用概率图模型去进行实际问题的学习与推断

3.学习近似推断

二、贝叶斯网络

概率图模型基于图，而图这种数据结果分为两种：有向图和无向图，针对有向（无环）图结构，实现的是贝叶斯网络，针对无向图，则为马尔可夫随机场。

1.有向无环图

根据图中每个结点不同，可提取出不同的相关结点，如以x3为例

2.联合概率分布

我们之所以搞出这么一个图，最终目的是想求解出所有x同时发生的概率，即联合概率，因为有了联合概率分布，我们就可以随意求解其他情况的概率，如下图中3.所写。

在贝叶斯网络，其联合概率计算是由图来定义的，如下图1.所展示，而如果没有贝叶斯网络，我们无法了解各个变量之间是否有联系，就认为都有联系，于是列出的联合概率公式为0.所示

。可以发现，贝叶斯网络的作用就是消除了部分变量之间的联系，或者说得到了某些变量之间存在独立性，从而方便联合概率的计算。

以一个例子来看看贝叶斯网络的运用：

显然，第一题是比较简单的，直接查表计算就行：

而如果要计算条件概率，就会稍微麻烦：（特别是缺少某一个变量时，我们需要用积分法消去这个变量）

3.条件独立性

对于一个很大的贝叶斯网络，我们需要有一个很高效的方法的快速辨别两个变量之间是不是独立的，但我们这里考虑条件独立性，条件独立性不同于独立性，条件独立性，必须要在某一条件下，考虑另外两个变量之间的独立性。三个重要准则如下：

例如以t2t，可以进行证明：

而如果抛去C的条件，考虑A和B之间的独立性，则A不与B独立：（实例化证明不是什么高大上的方法，就是高中数学求选项错误的方法）

知道上面的三个情况后，就可以判别网络上各个点的条件独立性，其原理为全局马尔科夫性：

以例子来说明：

再讲一个反例：

除此之外，我们还有另外两条规则来判断独立性，是为局部马尔科夫性，是全局马尔科夫性的一些特例，但相比于上面，更常用：

二、马尔科夫随机场

马尔科夫随机场是针对无向图结构的一种技术，由于缺少有向无环图的上下级关系，无法像贝叶斯一样可以列出各变量之间的联系，于是其引入团和极大团的概念：

在马尔科夫随机场中，既然无法确定结点之间的关系，那就认为两点有连线就有联系，是相互影响的关系。为了计算所有变量的联合概率，那就变成计算所有团（或者极大团）的概率。于是引入势函数来计算团内部变量之间的相关性（相当于贝叶斯网络中计算联合概率分布中的条件概率）：

以一个例子来看这条公式：（使用了极大团）

而马尔科夫随机场一个伟大的应用是受限玻尔兹曼机，其结构和相关定义如下：

如上面所写，受限玻尔兹曼机实际上就相当于一层神经网络，只是受限玻尔兹曼机是从马尔科夫随机场的角度得到的结果，而神经网络是从感知机的角度得到的。受限玻尔兹曼机的过程实际上也跟神经网络一致，也是前向计算出概率，再误差反向传回，修改参数。最后可以得到其联合概率值：

通过受限玻尔兹曼机无法直接得到联合概率分布，而根据我们使用神经网络的习惯，我们也确实不用得到联合概率分布，只要得到具体的v的概率是多少就行，而非要得到联合概率分布，也只能不断采点来得到。

2.条件独立性

马尔可夫随机场也有其对应的条件独立性，首先是全局马尔可夫性，比贝叶斯的简单，看图就懂：

还有局部马尔可夫性和成对马尔可夫性：

四、学习与推断

用概率图模型去解决实际问题的两个关键性步骤就是学习和推断。

1.学习

学习是要通过实际数据学习到概率图的结果，和概率图中的概率参数：

目前，结构学习的能力还没能力实现，一般都是人为假定的某种结构，比如隐马尔可夫模型、条件随机场模型。参数学习是可以进行的，一般使用EM算法来学习。后面会详解。

2.推断

推断的任务，就是求解出某种变量组合的概率（单变量概率、联合概率、条件概率，一般先求条件概率，因为可以使用条件独立性）。详细描述如下：

推断方法分为准确推断和近似推断两种方法。这里先讲精确推断方法，近似推断法放到下一节讲。

（1）变量消去

我们以一个例子讲述其过程，下面要求解P(x5)的具体解，我们可以按照贝叶斯网络的规则列出其联合概率并积分掉其他变量：

然后从叶节点（x1和x4都是）开始消去，这里先选x1。用m12代替积分结果：

消去x1也就表明可以在有向图种消去x1，然后按照上面消去的方法迭代到x5：

最终结果为：

针对无向图，则是使用势函数代替上面式子中的条件概率：

优缺点：

为了避免重复计算，我们显然可以将计算结果保存下来；这就是信念传播对其的改进。

（2）信念传播

其中，信念或者说消息，与方向性是无关的，并不是说，m35(x5)=m53(x3)，而是说，消息可以逆着有向边的方向传播：（正因为如此，需要保证图是紧凑无环的）

想要计算出所有边的消息值，显然只需要正向计算一遍，反向计算一遍，而其非要定义一个名字：二次扫描算法：

最后，我们可以得到各个结点的概率分布是正比于其他结点对其的消息总和：

五、近似推断

先对比一下精确推断和近似推断：

特别实际任务中，经常会有连续性变量，从而导致不好积分，所以一般都使用近似推断的方法来求解。

1.前向采样

在上图的例子中，图中的各个概率值是通过统计现有数据库的数据得到的结果，而我们计算的概率是右上角的部分，将其展开可以得到右边式子，然后我们的做法就不是再统计数据库中的（B=1，E=0，J=1）的数量和（E=0，J=1）的数量了。而是按照左图的概率开始采点：

通过采到的样本点，再统计（B=1，E=0，J=1）的数量和（E=0，J=1）的数量，相除得到最后的概率。可能有同学会好奇采样的概率是数据库统计概率，那我直接统计数据库不就行了。还真不一定，毕竟我们只用到数据库的一些边缘统计概率作为概率图的概率，而概率图得到P（B=1|E=0，J=1）和统计数据库得到的（B=1，E=0，J=1）的数量除以（E=0，J=1）的数量真不好说一样。