周志华西瓜书《机器学习》习题提示——第14章

人工干智能

已于 2023-07-24 16:19:03 修改

阅读量346

点赞数

分类专栏：《机器学习》周志华【西瓜书】辅导文章标签：机器学习人工智能

于 2023-07-24 13:12:14 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/131894007

版权

《机器学习》同时被 2 个专栏收录

143 篇文章 5 订阅

订阅专栏

周志华【西瓜书】辅导

143 篇文章 26 订阅

订阅专栏

习题提示

14.1：
注意：1、盘子是圆角方框；2、有依赖关系的用箭头线，朴素贝叶斯分类器需要描述的是“属性条件独立”；3、“盘”并不能描述结构，故链式条件随机场的盘式记法中， $y_i$ 并不能放到盘中，除非定义一个“结构盘”；4、链式条件随机场中 $y_i$ 是对盘子的整体关联，故连线不是穿透盘子的边缘。

（1）链式条件随机场的盘式记法为图(1)
在这里插入图片描述

图1 链式条件随机场}

（2）朴素贝叶斯分类器的盘式记法为图2
在这里插入图片描述

图2 朴素贝叶斯分类器}

14.2：
参见14.2 马尔可夫随机场（无向图，“团”与“极大团”，MRF的“三性”）中图14.5 局部马尔可夫性及说明。

14.3：
参见14.2 马尔可夫随机场（无向图，“团”与“极大团”，MRF的“三性”）中图14.6 成对马尔可夫性及说明。

14.4：
若团 $Q$ 不是极大团，则它必被一个极大团 $Q^*$ 所包含，变量 $\boldsymbol{\mathrm{x}}_Q$ 之间的关系不仅体现在 $\psi_{Q}$ 中，也体现在 $\psi_{Q^*}$ 中，因此，取因子 $\psi_{Q^*}$ 即可刻画它们的关系。进一步地，取所有的极大团即可刻画整个马尔可夫随机场，故仅需要极大团定义势函数。

14.5：
相同点：均是定义条件概率 $P (y ∣ x)$ 的公式形式，而后，利用数据集训练出参数；在条件随机场中，若采用指数模型，公式结构同对率回归模型一致；均可用对数似然得到优化目标。

不同点：对率回归中 $y$ 是一维的，而条件随机场中 $\boldsymbol{y}$ 是多维的；图示中，对率回归中只有一个结点 $y$ ，而条件随机场中 $\boldsymbol{y}$ 体现为有结构的多结点，如链、树；对率回归中用于二分类问题（ $y$ 是二值），而条件随机场中每个节点 $y_i$ 是多值；计算中条件随机场需要用到马尔可夫性；条件随机场比对率回归更复杂，求最优点也更困难。

14.6：
变量消去法是计算边际分布。
$\begin{align} P(\boldsymbol{\mathrm{x}}_E)&=\sum_{\boldsymbol{\mathrm{x}}_F}P(\boldsymbol{\mathrm{x}}_E,\boldsymbol{\mathrm{x}}_F)\notag\\ &=\sum_{\boldsymbol{\mathrm{x}}_F}\frac{1}{Z^*}\prod _{Q\in \mathcal{C} ^*}\psi _Q(\boldsymbol{\mathrm{x}}_Q) \tag{1} \end{align}$
其中， $\sum_{\boldsymbol{\mathrm{x}}_F}$ 是针对 $\boldsymbol{\mathrm{x}}_F$ 中元的值的组合。设 $\boldsymbol{\mathrm{x}}_F=(x_1,x_2,\cdots,x_{|F|})$ ，各变量 $x_i$ 的取值数最小值为 $k$ 。

（1）假定整个马尔可夫场为一个极大团 $Q$ ，则式(1)变为：
$\begin{align} P(\boldsymbol{\mathrm{x}}_E) &=\sum_{\boldsymbol{\mathrm{x}}_F}\frac{1}{Z^*}\psi _Q(\boldsymbol{\mathrm{x}}_Q) \tag{2} \end{align}$
则计算量由 $\sum_{\boldsymbol{\mathrm{x}}_F}$ 决定，而 $\sum_{\boldsymbol{\mathrm{x}}_F}$ 所包含的组合至少为 $k^{|F|}$ ，即 $∣ F ∣$ 的增长导致计算量成指数增长，式(2)中，要求的 $\boldsymbol{\mathrm{x}}_E$ 是固定的，极大团规模增长体现在 ${\boldsymbol{\mathrm{x}}_F}$ 的增长，故计算复杂度随极大团规模增长而呈指数增长。

（2）假定整个马尔可夫场为一个链（极大团为 $x_i,x_{i+1})$ ，则式(1)变为：
$\begin{align} P(\boldsymbol{\mathrm{x}}_E) &=\sum_{\boldsymbol{\mathrm{x}}_F}\frac{1}{Z^*}\prod _{i=1}^{|F|-1}\psi _Q(x_i,x_{i+1})\notag\\ &=\sum_{x_1,x_2}\sum_{x_2,x_3}\cdots\sum_{x{|F|-1}_,x_{|F|}}\left(\frac{1}{Z^*}\prod _{i=1}^{|F|-1}\psi _Q(x_i,x_{i+1})\right) \tag{3} \end{align}$
每个 $\psi _Q(x_i,x_{i+1})$ 的计算量为 $k^2$ ，再由和号的个数得总计算量为 ${|F|-1})k^2$ ，即随着结点数 $∣ F ∣$ 的增长，计算量并没有呈指数级增长。

14.7：
参见14.8 吉布斯采样算法的详细推导（将“多变量”联合采样变为交替地“单变量”采样）的讨论，它实际上是“拒绝采样方向”，即采样前选择沿轴的采样方向，而不拒绝采样，其好处是不浪费采样计算，且算法易于实现。

14.8：
变分推断（如，平均场方法）是一种近似推断方法，而【西瓜书式(14.32)】是精确的，原问题是求解 $\max\,\ln\,P(\boldsymbol{\mathrm{x}})$ （最大化对数似然），假定 $q(\mathrm{z})\thickapprox p(\boldsymbol{z}|\boldsymbol{\mathrm{x}},\Theta)$ ，则 $\mathrm{KL}(q||p)\thickapprox 0$ ，代入【西瓜书(14.32)】，则原问题转化为近似问题： $\mathcal{L} (q)$ ，在求解过程中，进一步通过【西瓜书式(14.35)】进行近似，从而推断出【西瓜书式(14.40)】。

在实践中，注意两点：一是隐变量 $\mathrm{z}$ 拆解成变量（或子集） $z_i$ 时，要求近似满足【西瓜书式(14.35)】，比较【西瓜书式(14.35)】与【西瓜书式(14.3)】可知，可以按“极大团”（或近似“极大团”：稍缺一些连线）原则分解。二是变量（或子集） $z_i$ 对应的 $q_i$ 应好处理连积（如，使用指数簇分布），从而可依【西瓜书式(14.38)】求出 $\mathbb{E}_{i\neq j}$ 。这两点需要用到专家知识和算法工程师的经验。

14.9：
这是一个实践题：

将“每回”作为一篇文档，“每十回”作为一个文档集，然后，比较各“文档集”的话题结构。

（1）通过词频统计软件，获得词与文档的二维关系表14.12 趣谈话题模型（话题“打词机”，盘式记法）
中表14.2“文档的词频”表。

（2）优化目标为【西瓜书式(14.43)】，其中，设定超参数 $T$ （话题数）；

（3）推断“文档集”所对应的话题结构，即【西瓜书式(14.44)】。

14.10：
在LDA的迭代过程中，已知 $\alpha$ 通过 $p(\Theta _t|\alpha)$ 进行采样时，得到向量 $\Theta _t$ ，设其分量最小值必须在指定的区间 $[\delta _1,\delta _2],\delta _2<\frac{1}{3}$ 内，当其大于 $\delta _2$ 时，增加 $T$ ，当其小于 $\delta _1$ 时，减小 $T$ 。