（《机器学习》完整版系列）第7章贝叶斯分类器——7.7 贝叶斯网络分类器（分类可视为一种特殊的查询）、贝叶斯网络推断（查询一组结点称为“推断”）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129226491

贝叶斯网络中求值，从特殊到一般：分类、查询、推断
吉布斯采样算法既可以采样一个样本（用于预测），又可以采样一组样本（用于查询）——“根据今天的天气状况，你觉得明天是晴还是雨？

贝叶斯网络分类器

在贝叶斯网络 $B$ 中，若其余所有结点都有值，仅有一个结点无值，会出现什么情况？

设待定值结点为 $i$ ，待定值为 $x_i$ ，设 $\overline{\boldsymbol{x}}_{-i}=(\overline{x}_1, \overline{x}_2,\cdots,\overline{x}_{i-1},\overline{x}_{i+1},\cdots,\overline{x}_d)$ ，则
$\begin{align} P(x_i\,|\,\overline{\boldsymbol{x}}_{-i}) =\frac{P(\overline{\boldsymbol{x}}_{-i},x_i)}{P(\overline{\boldsymbol{x}}_{-i})} \tag{7.47} \end{align}$
其中， $\overline{x}_j$ 表示结点变量 $x_j$ 的具体值。对式(7.47)先由 $B$ 的结构关系，转化为条件概率，然后，查 $B$ 的条件概率表即可计算出 $x_i$ 每一个指定值的 $P(x_i\,|\,\overline{\boldsymbol{x}}_{-i})$ 。这就实现了对待定结点的“查询”，即得到它取各种可能值的概率。

将样本标记 $y$ 也视为一个结点（地位等同于属性），则依前述方法训练出一个最优贝叶斯网络 $B^*$ ，对 $y$ 进行查询，则可得到
$\begin{align} P(c_k\,|\,\boldsymbol{x}) \tag{7.48} \end{align}$
其中， $c_k$ 为第 $k$ 类标记符号， $k=1,2,\cdots,K$ ，则取使式(7.48)最大的 $c_k$ 作为 $\boldsymbol{x}$ 分类，即实现了贝叶斯最优分类器（7.1 贝叶斯决策论中式(7.13)），分类可视为一种特殊的查询。

贝叶斯网络推断

确定了贝叶斯网络 $B$ 后，就可用于上述“查询”，现在进一步扩展“查询”，查询一组结点而不只是一个结点，称为“推断”，

在有限的时间内，通常使用“近似推断”，常用吉布斯采样进行“近似推断”，【西瓜书图7.5】描述了吉布斯采样算法，这里再对它的重点、难点加以说明。

（1）以前待预测样本表示为 $(\boldsymbol{x},y)$ 即 $(x_1,x_2,\cdots,x_d,y)$ ，其中，属性 $x_i,(i=1,2,\cdots,d)$ 已知，求标记 $y =$ ？现在将 $(x_1,x_2,\cdots,x_d,y)$ 中全视为变量，有的变量已知（证据），有的变量未知（待查询），将证据变量和待查询变量分开，各自排列，即样本为
$(E_1,E_2,\cdots,E_k,Q_1,Q_2,\cdots,Q_n)$
其中， $E_i$ 为证据变量， $Q_j$ 为待查询变量，写成集合形式则为 $(\boldsymbol{E},\boldsymbol{Q})$

（2）以大写字母表示变量，小写字母表示变量的值，粗体表示对应的向量。则查询问题可以表述为：证据为 $\boldsymbol{x}$ ，查询出现 $\boldsymbol{q}$ 的概率为多少（如，阴天（证据）下雨（查询）的概率多大）？即求 $P(\boldsymbol{Q}=\boldsymbol{q}\,|\,\boldsymbol{E}=\boldsymbol{x})$ 。

（3）通过频率估计上述概率，而频率又是通过采样后计数来获得，求 $P(\boldsymbol{Q}=\boldsymbol{q}\,|\,\boldsymbol{E}=\boldsymbol{x})$ 只需要在条件 $(\boldsymbol{E}=\boldsymbol{x})$ 下采样，设采样总数为 $T$ ，其中 $\boldsymbol{Q}=\boldsymbol{q}$ 的样本数为 $n_{\boldsymbol{Q}=\boldsymbol{q}}$ 个，则
$\begin{align} \hat{P}(\boldsymbol{Q}=\boldsymbol{q}\,|\,\boldsymbol{E}=\boldsymbol{x})=\frac{n_{\boldsymbol{Q}=\boldsymbol{q}}}{T} \tag{7.49} \end{align}$

（4）在哪儿去采样？容易想到在数据集 $D$ 中去采样，或者直接将数据集 $D$ 视为采样集，统计其中满足条件 $(\boldsymbol{E}=\boldsymbol{x})$ 的 $T$ 和 $n_{\boldsymbol{Q}=\boldsymbol{q}}$ ，如果数据集 $D$ 超大，你当然可以这样做。现在，我们换个思路来考虑，通过数据集 $D$ 已训练出一个贝叶斯网 $B=\langle G,\Theta \rangle$ ，转化到在贝叶斯网 $B$ 上采样，然而，贝叶斯网 $B$ 并不是样本空间（或样本集）如何在其上采样？贝叶斯网 $B$ 有个神奇的功能：指定结点 $x_i$ ，在固定其他所有结点值的情况下，可以求出指定结点的条件概率分布 $P(x_i\,|\,\overline{x}_1, \overline{x}_2,\cdots,\overline{x}_{i-1},\overline{x}_{i+1},\cdots,\overline{x}_d)$ ，即式(7.47)的“查询”功能，由该概率即可“采样”出该结点的值，该值与其他所有结点的值共同组成一个样本，将其视为采样得到的样本，它实际上，是借助贝叶斯网 $B$ 通过局部 $x_i$ 采样而“生成”一个样本 $\boldsymbol{x}$ 。这就是吉布斯采样算法【西瓜书图7.5】中的第7、第8句。

（5）【西瓜书图7.5】吉布斯采样算法由两层循环来描述：外层for循环（第3句）产生“一组样本”，内层for循环（第4至第10句）产生样本（产生“一组属性”），即对 $Q_i,(i=1,2,\cdots,n)$ 循环。

（6）【西瓜书图7.5】算法中第8句涉及到已知概率分布，如何进行采样的问题。这里以离散随机变量进行说明：例如，随机变量 $A$ 可取值为 $a_1,a_2,a_3$ ，已知 $P (A)$ 是指 $A$ 取每个值的概率已知，如， $P(A=a_1)=\frac{1}{10},P(A=a_2)=\frac{2}{5},P(A=a_3)=\frac{1}{2}$ ，

现在以 $P (A)$ 为已知的概率分布，要求采样1000个样本，先解决一个样本的采样问题，再用for循环可以得到任意多个样本。

采一个样本方法：

将区间 $[0, 1]$ 分为三段： $T_1=[0,\frac{1}{10}),T_2=[\frac{1}{10},\frac{5}{10}),T_1=[\frac{5}{10},\frac{10}{10}]$ ；
计算机中随机数发生器产生的随机数是均匀分布的，即可用程序产生区间 $[0, 1]$ 中均匀分布的随机数 $r$ ，如： $r=\mathrm{random}(seed)$ ；
判断随机数 $r$ 所在的区间段：若落入 $T_1$ ，则取样本 $A=a_1$ ；若落入 $T_2$ ，则取样本 $A=a_2$ ；若落入 $T_3$ ，则取样本 $A=a_3$ 。

（7）吉布斯采样算法是从已有的 $\boldsymbol{q}^{t-1}$ 出发采出 $\boldsymbol{q}^{\,t}$ ，然而开始时没有这个“已有”，而是胡乱地初始化一个 $\boldsymbol{q}^0$ 作为“已有”，即【西瓜书图7.5】算法中第2句，那么，问题来了：这个 $\boldsymbol{q}^0$ 是否合适？首先，这个 $\boldsymbol{q}^0$ 应该是在 $\boldsymbol{Q}$ 的取值范围内的，其次是要能“取到”该值，这个不能保证，因为该值有可能是“小概率事件”。好在数学上证明了不需要保证这一点，这就是【西瓜书p.161】所说的采样形成的“马尔可夫链”收敛于平稳分布。因此，【西瓜书图7.5】算法中对采样计数（第3句）应该改造一下：斩掉一段不太平稳的“链”头再开始计数。

（8）吉布斯采样算法既可以采样一个样本（用于预测），又可以采样一组样本（用于查询），我们通过一段对话来理解：

Q：“根据今天的天气状况，你觉得明天是晴还是雨？”——今天的天气状况【证据】，明天是晴还是雨【预测】。

J：“我觉得明天是晴天. ”——J用吉布斯采样算法采了一个样本，发现该样本是晴【预测结果】。

Q：“你预报的准确性如何？”

J：“让我再想想. ”——J用吉布斯采样算法采出一组样本，计算明天是晴还是雨各自的频率【近似估算后验概率】。

Q：“其实，我想知道明天是雨天的可能性有多大，因为我明天要举办露天婚礼。 ”——明天是雨天的可能性【查询】。

J：“明天是雨天的概率是60%. ”——根据刚计算出的频率作出近似推断【查询结果】。

综上，近似推断有如下步骤：

（1）从现实物理世界中采样得到训练集 $D$ ；

（2）以评价函数最小化为目标即 $\min s(B\,|\,D)$ ，搜索得到一个贝叶斯网络 $B=\langle G,\Theta \rangle$ ；

（3）从 $B$ 及证据出发，使用吉布斯算法采样，得到一个样本集。注：这里与其说是“采样”，不如说是用“样本制造机”来“制造”样本，“样本制造机”有多种多样，但它应保证“制造”出的“样本集”是反映样本空间的特性（即统计频率能反映样本空间中的概率），这里的“样本制造机”为训练好的贝叶斯网及吉布斯算法。

（4）对产生（采样）得到的样本集进行分门别类“计数”，得到待查询值的概率（近似值），即式(7.49)。

其中，（1）与（2）可以视为生产一个产品 $B$ ，（3）与（4）视为使用产品 $B$ ，显然，产品可以发布给许多用户使用。

本文为原创，您可以：