【西瓜书笔记】补充5：图模型，EM算法，神经网络补充

最新推荐文章于 2022-06-18 19:46:44 发布

西风瘦马1912

最新推荐文章于 2022-06-18 19:46:44 发布

阅读量682

点赞数

分类专栏：《机器学习》西瓜书第15期文章标签：神经网络机器学习图模型 EM算法局部不变性

本文链接：https://blog.csdn.net/weixin_39236489/article/details/123144275

版权

《机器学习》西瓜书第15期专栏收录该内容

19 篇文章 0 订阅

订阅专栏

概率图模型

把概率模型用图的方式表示出来。

条件随机场(crf)工业界用的最多，能很自然的与深度学习融合到一起。

从logistic到crf

假设一共有 $n$ 个标签类别 $\left\{y_{i}\right\}_{i=1}^{n}$ , $m$ 个特征， $\left\{x_{i}\right\}_{i=1}^{m}, x_{1}=1$ ，这里 $x_1$ 是偏置。所以有：
$\begin{gathered} p\left(y_{1} \mid \mathbf{x}\right)=\frac{1}{Z(\mathbf{x})} \exp \left(\sum_{i=1}^{m} \theta_{1, i} x_{i}\right) \\ p\left(y_{2} \mid \mathbf{x}\right)=\frac{1}{Z(\mathbf{x})} \exp \left(\sum_{i=1}^{m} \theta_{2, i} x_{i}\right) \\ \vdots \\ p\left(y_{n} \mid \mathbf{x}\right)=\frac{1}{Z(\mathbf{x})} \exp \left(\sum_{i=1}^{m} \theta_{n, i} x_{i}\right) \end{gathered}$
每个 $y_i$ 对应一套参数 $\left\{\theta_{j i}\right\}_{i=1}^{m}$ ，每套参数之间没有联系。 $Z(\mathbf{x})$ 是归一化参数，需要保证输出的离散值是概率。现在我们将上述公式变形，把上面多个公式用一个公式表示：
$\begin{gathered} p\left(y_{j} \mid \mathbf{x}\right)=\frac{1}{Z(\mathbf{x})} \exp \left(\mathbf{I}(j=k) \sum_{k=1}^{n} \sum_{i=1}^{m} \theta_{k, i} x_{i}\right) \\ \mathbf{I}(j=k)^{\mathrm{I}}= \begin{cases}1 & j=k \\ 0 & j \neq k\end{cases} \end{gathered}$
$\text { I }$ 是示性函数，它虽然简单，但是它是建立起不同标签联系的桥梁。我们将公式(2)进一步等价改造成下面的形式：
$p\left(y_{j} \mid \mathbf{x}\right)=\frac{1}{Z(\mathbf{x})} \exp \left(\sum_{p=(1,1)}^{n, m} \theta_{p} f_{p}\left(y_{j}, \mathbf{x}\right)\right)$
$\theta_{p}$ 是需要学习的参数， $f_{p}$ 是人工定义的“特征”，Logistic模型是上述公式的特殊形式。为了和logistic等价， $f_{p}$ 的定义如下：
$f_{(k, i)}\left(y_{j}, \mathbf{x}\right)=\mathbf{I}(j=k) x_{i}$
这个特征函数与标签有关，因此logistic定义的特征只和当下的标签有关。这个假设并不一定有意义，对多数分类问题有意义，但是对有一些分类问题却不是。

上面公式可以进一步改写：
$p\left(y_{j} \mid \mathbf{x}\right)=\frac{1}{Z(\mathbf{x})} \exp \left(\sum_{p=1}^{n m} \theta_{p} f_{p}\left(y_{j}, \mathbf{x}\right)\right)$
注意一共定义了 $n m$ 个“特征”。

现在我们考虑复杂些的序列标注问题，标签为 $\bar{y}=\left(y^{1}, y^{2}, \cdots, y^{T}\right)$ ,输入也是一个序列：
$\overline{\mathbf{X}}=\left(\mathbf{x}^{\mathbf{1}}, \mathbf{x}^{\mathbf{2}}, \cdots, \mathbf{x}^{\mathbf{T}}\right)$
这里的 $x_1, x_2, \cdots$ 是一列样本，比如一段一个人的面部视频， $x_1$ 表示第一张图片。然后让每一张图片打标签。输入输出都是序列。

现在需要输出条件概率：
$p(\bar{y} \mid \overline{\mathbf{x}})$
如果用Logistic对这个序列进行建模，那么就会长成这个样子：
$p(\bar{y} \mid \overline{\mathbf{x}})=\frac{1}{\bar{Z}(\mathbf{x})} \prod_{t=0}^{T} \exp \left(\sum_{p=1}^{n m} \theta_{p} f_{p}\left(y^{t}, \mathbf{x}^{\mathbf{t}}\right)\right)$
logistic定义的“特征”至于当下的标签有关。也就是 $y^{t}$ 只决定于 $\mathbf{x}^{\mathbf{t}}$ 。但是这显然不一定合理，因为视频是一系列的图片，需要根据图片来判断当下这个人在做什么样的行为，如果只看当下时刻的图片特征，如果此人张着嘴巴，可能是在吃饭，可能是在唱歌，如果能知道上一张图片对应的行为标签，比如是唱歌，那么当下这个图片对应的行为就有很大概率时在唱歌。所以，对于序列标注问题，“特征”应该和上一个时刻的标签有关。

【理论上应该和过去都相关，但是我们这里做了一个很强的马尔科夫假设，即只和上一个时刻相关，这样能大幅度减少模型的复杂度。】

为了使的“特征” $f_p$ 和上一个时刻标签有关系，我们将logistic的模型进行一般化：
$p(\bar{y} \mid \overline{\mathbf{x}})=\frac{1}{\bar{Z}(\mathbf{x})} \prod_{t=1}^{T} \exp \left(\sum_{p=1}^{P} \theta_{p} f_{p}\left(y^{t}, y^{t-1}, \mathbf{x}^{\mathbf{t}}\right)\right)$
式(9)是线性链CRF的一般定义，其包含了logistic，也就是说，Logistic是上式的一种特殊情况。

朴素贝叶斯和crf在工业中用的较多。

EM算法

隐变量：表示的其实是数据的不完整性，也就是训练数据并不能给出关于模型结果的全部信息，因此只能对模型中未知的状态做出概率性的推测。

三硬币模型，但其实双硬币模型更好理解。
$\begin{aligned} & P(y \mid \pi, p, q) \\ =& \sum_{z} P(y, z \mid \pi, p, q) \\ =& \sum_{z} P(y \mid z, \pi, p, q) P(z \mid \pi, p, q) \\ =& \pi p^{y}(1-p)^{1-y}+(1-\pi) q^{y}(1-q)^{1-y} \end{aligned}$

$\begin{aligned} & \max _{\pi, p, q} \prod_{i=1}^{n} P\left(y_{i} \mid \pi, p, q\right) \\ =& \max _{\pi, p, q} \prod_{i=1}^{n}\left[\pi p^{y_{i}}(1-p)^{1-y_{i}}+(1-\pi) q^{y_{i}}(1-q)^{1-y_{i}}\right] \\ =& \max _{\pi, p, q} \sum_{i=1}^{n} \log \left[\pi p^{y_{i}}(1-p)^{1-y_{i}}+(1-\pi) q^{y_{i}}(1-q)^{1-y_{i}}\right] \\ =& \max _{\pi, p, q} L(\pi, p, q) \end{aligned}$

最大似然估计的本质：存在即合理。也就是样本存在的概率就是出现的最大概率。对于式(11)， $\pi$ 是未知的， $n, y_i$ 是已知的。那能不能用梯度下降呢？理论上可以，但是因为log有加号，所以很麻烦。而且 $\pi$ 是有约束的，都在[0, 1]之间。EM算法就是用Q函数来作为它的下界的一个近似。很多场景下，EM算法和梯度下降和牛顿法是等价的。

关于EM算法的收敛性：

稳定点（驻点）：

$p(\mathbf{x} \mid \theta)$ 的稳定点指此处是导数为0。这个驻点可能是极大值点，也可能是极小值点，也可能是鞍点。

收敛性：

似然函数的收敛，也就是 $p(\mathbf{x} \mid \theta)$ 可能会收敛。
模型参数的收敛，也就是 $\theta$ 也可能收敛。 $\theta$ 是迭代的过程。

K-means算法是EM算法的一种应用，一种特殊情况。K-means算法等价于用快速牛顿法对量化误差进行优化，也就是把k-means聚类问题转化为优化问题，这个优化问题用快速牛顿法来解决的话，其得到的结果与EM算法的结果等价。K-means中的迭代过程就是经典的EM过程,属于hard，也就是e步做了截断，只看最近的样本。

EM算法并不与梯度下降等价，但是在很多问题中有联系。在高斯混合聚类中也有应用，算soft聚类，每个样本要看所有的求E步。

协同过滤的思想跟EM思想接近。SMO算法的思想也与EM思想接近。

深度学习

西瓜书大而全，深度学习内容相对简略。深度学习不一定在所有领域都能取代传统算法，进入一个新领域，也要学习前人积累的其他算法模型。

之前介绍过的Logistic, 支持向量机，决策树和概率图模型算是传统AI模型，它们都有一个共同的假设：局部不变性，也就是说在原始数据集中某个区域有一个标记为正标签的样本，如果有一个新样本离它很近，我们就认为这个新样本与此区域这的旧样本一样是正标签。问题在于怎么定义这个“近”。

局部不变性有局限性。我们可以考虑下图中的一个棋盘问题。棋盘中我们按照交替排列的规律排放两种标签的样本。我们想要训练一个函数 $f$ 来预测位于棋盘某个位置的样本标签。如果我们的模型只有局部不变性，就至少需要 $4^{2}$ 个样本进行训练。如果样本数量不足，比如第二个棋盘的情况，只有四个样本。如果一个新样本位于左上角的格子，会被预测为圈，因为离新样本最近的旧样本是圈。但是如果新样本位于第2行第4列，根据局部不变性，就会被预测为叉，因为离它最近的旧样本是第一行同一列的叉。但是显然这预测错了。

请添加图片描述

原因就在于局部不变性没有考虑到周期性，人能很容易认识出周期性结构。在这个棋盘中，只有两个维度，如果有10000个维度，就需要 $4^{10000}$ 个样本来训练。这就是另一种形式的维度灾难。这里的周期性其实可以被视为先验知识，深度学习的一个本质就是通过构建网络结构，来同时学习获得先验知识，例如这里的周期性。也就是说深度学习相比较传统机器学习的优势就是：局部不变性+先验知识。当然深度学习除了网络结构设计，还包含损失函数设计和优化方法选择。

西风瘦马1912

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【西瓜书笔记】补充5：图模型，EM算法，神经网络补充

概率图模型把概率模型用图的方式表示出来。条件随机场(crf)工业界用的最多，能很自然的与深度学习融合到一起。从logistic到crf假设一共有nnn个标签类别{yi}i=1n\left\{y_{i}\right\}_{i=1}^{n}{yi}i=1n, mmm个特征，{xi}i=1m,x1=1\left\{x_{i}\right\}_{i=1}^{m}, x_{1}=1{xi}i=1m,x1=1，这里x1x_1x1是偏置。所以有：p(y1∣x)=1Z(x)exp⁡(∑i=1mθ1,i
复制链接

扫一扫

专栏目录