（《机器学习》完整版系列）第14章概率图模型——14.8 吉布斯采样算法的详细推导（将“多变量”联合采样变为交替地“单变量”采样）

人工干智能

已于 2023-03-31 11:04:17 修改

阅读量382

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：算法机器学习概率论

于 2023-03-21 10:16:40 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129682339

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 34 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

吉布斯采样是MH算法的特例，
吉布斯采样：通过 $T_1,T_2$ 构造出需要的平稳马尔可夫链，它将“多变量”联合采样 $p (x, y)$ 变为交替地“单变量”采样（基于 $p (x, y)$ 的 $p(x\,|\,y)$ 和 $p(y\,|\,x)$ ），神奇的是它并没有引入新的分布，而是用其条件分布。
可将二维推广到多维，它是逐个坐标系数地调整。

再谈吉布斯采样

在7.7 贝叶斯网络推断中，我们从贝叶斯网的角度讨论了吉布斯采样，这里我们再从MH算法的角度对它讨论。
以二维样本 $\boldsymbol{x}$ 为例。

多重转移模型：当由一对随机变量 $(x, y)$ 表示系统状态时，虽然状态转移模型是二维的（联合转移），但分解为在 $x$ 和 $y$ 两个坐标轴上定义的转移模型很可能更容易处理。如图14.11 所示。
图14.11 多重转移（一）

图14.11 多重转移（一）

将马尔可夫链中原来的以虚线方框的步（基于 $(x, y)$ ）分解为圆圈的步（对应于从标轴上的转移模型）：先 $x$ 轴上的转移（对应于图中的单圆圈），再 $y$ 轴上的转移（对应于图中的双圆圈），单圆圈为样本的“半成品”，双圆圈才是样本的“成品”。为便于分析，我们将图14.11 调整为图14.12 。
图14.12 多重转移（二）

图14.12 多重转移（二）

虚线椭圆表示原来的马尔可夫链中的步 $T$ ，分解为两步： $T_1$ 和 $T_2$ ，设要采样的分布为 $p (x, y)$ ，定义
$\begin{align} \begin{cases} T_1=p(x^t\,|\,y^{t-1}) \\ T_2=p(y^t\,|\,x^{t}) \\ \end{cases} \tag{14.69} \end{align}$

令 $T=T_2\cdot T_1$ ，则有
$\begin{align} T((x^t,y^t)\,|\,(x^{t-1},y^{t-1})) & =p(y^t\,|\,x^{t})p(x^t\,|\,y^{t-1})\quad\text{（由式(14.69)）}\notag \\ & =p(y^t\,|\,x^{t},y^{t-1},x^{t-1})p(x^t\,|\,y^{t-1},x^{t-1})\quad\text{（由马氏链性质）}\notag \\ & =p(y^t,x^t\,|\,y^{t-1},x^{t-1}) \tag{14.70} \end{align}$
对式(14.70)两边乘 $p(y^{t-1},x^{t-1})$ 并对 $y^{t-1},x^{t-1})$ 求和
$\begin{align} & \quad \sum_{(y^{t-1},x^{t-1})}p(y^{t-1},x^{t-1})T((x^t,y^t)\,|\,(x^{t-1},y^{t-1}))\notag \\ & =\sum_{(y^{t-1},x^{t-1})}p(y^{t-1},x^{t-1})p(y^t,x^t\,|\,y^{t-1},x^{t-1})\notag \\ & =\sum_{(y^{t-1},x^{t-1})}p((y^t,x^t),(y^{t-1},x^{t-1}))\notag \\ & =p(y^t,x^t) \tag{14.71} \end{align}$
$T$ 是刻划虚线椭圆表示马尔可夫链，比较式(14.71)与式(14.47)知，虚线椭圆表示马尔可夫链为平稳分布，其平稳分布为 $p (x, y)$ ，它是要采样的分布。这就得到吉布斯采样：通过 $T_1,T_2$ 构造出需要的平稳马尔可夫链（图中虚线椭圆所示），每个虚线椭圆都是一个合格的样本 $(x, y)$ ，即它将“多变量”联合采样 $p (x, y)$ 变为交替地“单变量”采样（基于 $p (x, y)$ 的 $p(x\,|\,y)$ 和 $p(y\,|\,x)$ ），神奇的是它并没有引入新的分布，而是用其条件分布。

理解吉布斯算法是MH算法的特例：改造【西瓜书图14.9】MH算法：第3句改为基于第2句的for交替地取 $p(y^*\,|\,x^{t-1})$ 和 $p(x^*\,|\,y^{t-1})$ 采样出二维样本的新分量，产生的新样本为一个分量不变另一个分量为新的；第4至10句改为：以概率1接受轴方向的转移，即只剩下第6句。这就是二维样本时的吉布斯算法。