机器学习笔记之概率图模型(八)信念传播(Belief Propagation,BP)(基于树结构)

最新推荐文章于 2025-02-15 19:52:40 发布

静静的喝酒

最新推荐文章于 2025-02-15 19:52:40 发布

阅读量2.9k

点赞数 7

分类专栏：机器学习文章标签：机器学习信念传播迭代精确推断概率图模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34758157/article/details/127496276

版权

机器学习笔记之概率图模型——信念传播（基于树结构）

引言

引言

上一节介绍了精确推断中的变量消去法，本节将针对变量消去法的弊端，介绍信念传播。

回顾：变量消去法及弊端

变量消去法(Variable Elimination,VE)是概率图精确推断的基础思想，其本质是通过 乘法对加法的分配律 思想进行简化运算。
已知一个贝叶斯网络表示如下：
贝叶斯网络-示例
上述节点的联合概率分布 $\mathcal P(i_1,i_2,i_3,i_4,i_5)$ 表示如下：
$\begin{aligned} \mathcal P(i_1,i_2,i_3,i_4,i_5) & = \prod_{k=1}^5 \mathcal P(i_k \mid i_{pa(k)}) \\ & = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_2) \cdot \mathcal P(i_4 \mid i_3) \cdot \mathcal P(i_5 \mid i_4) \end{aligned}$
以 $i_3,i_5$ 两个变量结点示例：

变量结点 $i_5$ 的边缘概率分布表示如下：
其中 $\mathcal P_{i_1}(i_2)$ 表示通过 $i_1$ 积分从而得到 $i_2$ 的边缘概率结果。
$\begin{aligned} \mathcal P(i_5) & = \sum_{i_1,i_2,i_3,i_4} \mathcal P(i_1,i_2,i_3,i_4,i_5) \\ & = \sum_{i_1,i_2,i_3,i_4} \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_2) \cdot \mathcal P(i_4 \mid i_3) \cdot \mathcal P(i_5 \mid i_4) \\ & = \sum_{i_4} \mathcal P(i_5 \mid i_4) \cdot \sum_{i_3} \mathcal P(i_4 \mid i_3) \cdot \sum_{i_2} \mathcal P(i_3 \mid i_2) \cdot \sum_{i_1} \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_1) \\ & = \sum_{i_4} \mathcal P(i_5 \mid i_4) \cdot \sum_{i_3} \mathcal P(i_4 \mid i_3) \cdot \sum_{i_2} \mathcal P(i_3 \mid i_2) \cdot \mathcal P_{i_1}(i_2) \\ & = \cdots \\ & = \mathcal P_{i_4}(i_5) \end{aligned}$
在贝叶斯网络中， $i_5$ 节点的计算顺序表示如下(蓝色箭头)：

这个操作和隐马尔可夫模型中的前向算法计算顺序相同，均是 从初始时刻出发，向目标时刻方向计算的过程。
不仅计算顺序相同，并且计算的操作也是非常近似的。即每一次迭代过程都需要对状态变量进行积分，从而转移到下一状态。
HMM模型前向算法(Forward Algorithm)迭代过程表示如下：
$\alpha_{t+1}(j) = \sum_{i_t} b_j(o_{t+1}) \cdot a_{ij} \cdot \alpha_t(i)$
其中 $\alpha_t(i)$ 表示 $t$ 时刻之前所有观测变量 $o_1,\dots,o_t$ 与 $t$ 时刻状态变量 $i_t$ 的联合概率分布； $a_{ij}$ 表示状态转移矩阵 $\mathcal A$ 的对应元素； $b_j(o_{t+1})$ 表示发射矩阵 $\mathcal B$ 的对应元素；
$\alpha_t(i) = \mathcal P(o_1,\cdots,o_t,i_t = q_i \mid \lambda) \quad \lambda = (\pi,\mathcal A,\mathcal B)$

最低0.47元/天解锁文章

静静的喝酒

博客等级

码龄9年

295
原创

932
点赞

2176
收藏

1527
粉丝

关注

私信

热门文章

分类专栏

最新评论

贝尔曼最优方程(Bellman Optimality Equation)
果然昔: 整体的逻辑是对的，但是小细节错误太多了，比如s’写成了s，Π*写成了Π，大家自己看的时候要注意
策略梯度方法介绍——策略梯度定理推导过程
Yugang_Yang: 很好的文章，可惜被放在了csdn上
机器学习笔记之变分推断(五)重参数化技巧
CatCatDogDog2030: 另外请教一个问题：“Q是一个描述概率的函数，因此它的值域是( 0 , 1 ) “ Q不是pdf吗？概率密度函数? 比如p(z|x) 这个后验分布应该是概率密度函数？这样的话，值域就不应该是0到1以内呀？
机器学习笔记之变分推断(五)重参数化技巧
CatCatDogDog2030: 请教一个问题，重参数化技巧之后， logQ(Z∣ϕ) 这个公式是否包含ϕ这个变量和z这个变量？如果两个都包含的话，求对ϕ求梯度，既要考虑 logQ(Z∣ϕ) 公式本身包含的 ϕ 变量，还是隐式包含ϕ的z变量；但是我看推导过程中，只提及了包含ϕ的z变量，这样相当于说 logQ(Z∣ϕ) 这个分布的公式中，已经不直接包含ϕ这个变量? logQ(Z∣ϕ) 完全由z变量来描述分布?
机器学习笔记之变分推断(二)公式推导过程(基于平均场假设)
CatCatDogDog2030: 请教一个问题，为什么上一节说的是 "只能通过某些方法近似求解后验概率分布P ( θ ∣ X )" 而这一节是要近似Q(Z)≈P(Z∣X) ?

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

静静的喝酒 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。