HMM详解（NLP）全网少有的最清晰透彻全面解析

Xu_Wave

已于 2022-04-18 00:26:06 修改

阅读量6k

点赞数 2

分类专栏： NLP(包含深度学习) 文章标签：自然语言处理

于 2020-04-28 20:04:15 首次发布

本文链接：https://blog.csdn.net/qq_22795223/article/details/105812360

版权

NLP(包含深度学习) 专栏收录该内容

55 篇文章 36 订阅

订阅专栏

1. 什么是隐马尔可夫模型 $H M M ?$

HMM模型是概率图模型的一种, 属于生成模型。
HMM模型描述的就是由这些隐状态序列(实体标记) 生成可观测状态(可读文本)的过程。
在这里插入图片描述

HMM模型有两个基本假设(非常重要):

马尔科夫假设。第 $t$ 个隐状态(实体标签)只跟前一时刻的 $t - 1$ 隐状态(实体标签)有关, 与除此之外的其他隐状态(如 $t-2,\ t+3$ )无关.
例如上图中: 蓝色的部分指的是 $i_t$ 只与 $i_{t-1}$ 有关, 而与蓝色区域之外的所有内容都无关, 而 $P(i_{t}|i_{t-1})$ 指的是隐状态 $i$ 从 $t - 1$ 时刻转向 $t$ 时刻的概率, 具体转换方式下面会细讲.
观测独立性假设。我们上面说过, HMM模型中是由隐状态序列(实体标记)生成可观测状态(可读文本)的过程,
观测独立假设是指在任意时刻观测 $o_t$ 只依赖于当前时刻的隐状态 $i_t$ , 与其他时刻的隐状态无关.
例如上图中: 粉红色的部分指的是 $i_{t+1}$ 只与 $o_{t+1}$ 有关, 跟粉红色区域之外的所有内容都无关。

2. HMM模型的参数:

HMM的转移概率(transition probabilities):
我们上面提到了 $P(i_{t}|i_{t-1})$ 指的是隐状态 $i$ 从 $t - 1$ 时刻转向 $t$ 时刻的概率, 比如说我们现在实体标签一共有 $7$ 种, 也就是 $N = 7$ (注意 $N$ 是所有可能的实体标签种类的集合), 也就是 $Q_{hidden} = \{ q_0, q_1, ... , q_6\}$ (注意我们实体标签编号从 $0$ 算起), 假设在 $t - 1$ 时刻任何一种实体标签都可以在 $t$ 时刻转换为任何一种其他类型的实体标签, 则总共可能的转换的路径一共有 $N^2$ 种, 所以我们可以做一个 $N * N$ 的矩阵来表示所有可能的隐状态转移概率.

上图就是转移概率矩阵, 也就是 $\ matrix$ , 我们设这个矩阵为 $A$ 矩阵, 则 $A_{ij}$ 表示矩阵中第i行第j列:
$A_{ij}=P(i_{t+1}= q_j | i_{t} = q_i) \quad q_i \in Q_{hidden}$
上式表示指的是在 $t$ 时刻实体标签为 $q_i$ , 而在 $t + 1$ 时刻实体标签转换到 $q_j$ 的概率.
HMM的发射概率(emission probabilities):
我们之前提到了任意时刻观测 $o_t$ 只依赖于当前时刻的隐状态 $i_t$ ,
也就是 $P(o_t | i_t)$ , 也叫做发射概率, 指的是隐状态生成观测结果的过程.
设我们的字典里有 $M$ 个字, $V_{obs.}=\{v_0, v_1, ... , v_{M-1} \}$ (注意这里下标从0算起, 所以最后的下标是 $M - 1$ , 一共有 $M$ 种观测), 则每种实体标签(隐状态)可以生成 $M$ 种不同的汉字(也就是观测), 这一过程可以用一个发射概率矩阵来表示, 他的维度是 $N * M$ .

上图就是发射概率矩阵, 也就是 $\ matrix$ , 我们设这个矩阵为 $B$ 矩阵, 则 $B_{jk}$ 表示矩阵中第 $j$ 行第 $k$ 列:
$B_{jk}=P(o_{t}= v_k | i_{t} = q_j) \quad q_i \in Q_{hidden} \quad v_k \in V_{obs.}=\{v_0, v_1, ... , v_{M-1} \}$
上式表示指的是在 $t$ 时刻由实体标签(隐状态) $q_j$ 生成汉字(观测结果) $v_k$ 的概率.
HMM的初始隐状态概率: 又称为 $\ probabilities$ , 我们通常用 $\pi$ 来表示, 注意这里可不是圆周率:
$\pi=P(i_1=q_i) \quad q_i \in Q_{hidden} = \{ q_0, q_1, ... , q_{N-1}\}$
上式指的是自然语言序列中第一个字 $o_1$ 的实体标记是 $q_i$ 的概率, 也就是初始隐状态概率.

3. 用HMM解决序列标注问题, HMM的学习算法;（重要）

我们现在已经了解了HMM的三大参数 $\ B, \ \pi$ , 假设我们已经通过建模学习, 学到了这些参数, 得到了模型的概率, 我们怎么使用这些参数来解决序列标注问题呢?
在这里插入图片描述
设目前在时刻 $t$ , 我们有当前时刻的观测到的一个汉字 $o_t=v_k$ (指的第 $t$ 时刻观测到 $v_k$ ), 假设我们还知道在 $t - 1$ 时刻(前一时刻)对应的实体标记类型 $i_{t-1} = \hat{q}^{t-1}_i$ (指的 $t - 1$ 时刻标记为 $\hat{q}^{t-1}_i$ ). 我们要做的仅仅是列举所有 $i_{t}$ 可能的实体标记 $\hat{q}^{t}_{j}$ , 并求可以使下式输出值最大的那个实体类型 $q^{t}_{j}$ (也就是隐状态类型):
$\hat{q}_j^{t} = argmax_{\hat{q}_j^{t} \in Q_{hidden}} P(i_t = \hat{q}_j^{t} | i_{t-1} = \hat{q}^{t-1}_i) P(o_t=v_k| i_t = \hat{q}_j^{t})$
将所有 $t$ 时刻当前可取的实体标签带入下式中, 找出一个可以使下式取值最大的那个实体标签作为当前字的标注:
$P (当前可取实体标签 ∣ 上一时刻实体标签) P (测到的汉字 ∣ 当前可取实体标签)$
注意: 我们这里只讲到了怎样求第 $t$ 时刻的最优标注, 但是在每一时刻进行这样的计算, 并不一定能保证最后能得出全局最优序列路径, 例如在第 $t$ 时刻最优实体标签是 $q_j$ , 但到了下一步, 由于从 $q_j$ 转移到其他某些实体标签的转移概率比较低, 而降低了经过 $q_j$ 的路径的整体概率, 所以到了下一时刻最优路径就有可能在第 $t$ 时刻不经过 $q_j$ 了, 所以每一步的局部最优并不一定可以达成全局最优, 所以我们之后会用到维特比算法来找到全局最优的标注序列, 这个后面会有详细讲解.

HMM参数学习(监督学习):
我们今天要用HMM解决的是序列标注问题, 所以我们解决的是监督学习的问题. 也就是说我们现在有一些文本和与之对应的标注数据, 我们要训练一个HMM来拟合这些数据（训练方法就是参数估计）, 以便之后用这个模型进行数据标注任务, 最简单的方式是直接用极大似然估计来估计参数:
在这里插入图片描述

初始隐状态概率 $\pi$ 的参数估计:
$\hat{\pi}_{q_i}=\frac{count(q^{1}_{i})}{count(o_1)}$
上式指的是, 计算在第 $1$ 时刻, 也就是文本中第一个字, $q^{1}_{i}$ 出现的次数占总第一个字 $o_1$ 观测次数的比例, $q^{1}_{i}$ 上标1指的是第1时刻, 下标 $i$ 指的是第 $i$ 种标签(隐状态), $c o u n t$ 是的是记录次数.
转移概率矩阵 $A$ 的参数估计:
我们之前提到过 $\ matrix$ 里面 $A_{ij}$ (矩阵的第i行第j列)指的是在 $t$ 时刻实体标签为 $q_i$ , 而在 $t + 1$ 时刻实体标签转换到 $q_j$ 的概率, 则转移概率矩阵的参数估计相当与一个二元模型 $b i g r a m$ , 也就是把所有的标注序列中每相邻的两个实体标签分成一组, 统计他们出现的概率:
$\hat{A}_{ij}=P(i_{t+1}= q_j | i_{t} = q_i)=\frac{count(q_i后面出现q_j的次数)}{count(q_i的次数)}$
发射概率矩阵 $B$ 的参数估计:
我们提到过 $\ matrix$ 中的 $B_{jk}$ (矩阵第j行第k列)指的是在 $t$ 时刻由实体标签(隐状态) $q_j$ 生成汉字(观测结果) $v_k$ 的概率.
$\hat{B}_{jk}=P(o_{t}= v_k | i_{t} = q_j)=\frac{count(q_j与v_k同时出现的次数)}{count(q_j出现的次数)}$

到此为止, 我们就可以遍历所有语料, 根据上面的方式得到模型的参数 $\ B, \ \pi$ 的估计.

注意, 通过上面的计算过程, 我们可以得出HMM的参数 $\pi)$ 有以下特性:
$\sum_{i}\pi_{q_i} = 1$ 所有标签的初始概率和为1
$\sum_{j}A_{ij} = \sum_{j}P(i_{t+1}= q_j | i_{t} = q_i) = 1$ 在第 $t$ 时刻标签为 $q_i$ 的条件下，此时基于 $q_i$ 条件的所有的转移概率和为1
$\sum_{k}B_{jk} = \sum_{k}P(o_{t}= v_k | i_{t} = q_j) =1$ 在第 $t$ 时刻标签为 $q_j$ 的条件下，此时基于 $q_j$ 条件的所有的发射概率和为1

4. 维特比算法(Viterbi Algorithm)(HMM的预测算法).

维特比算法 $\ algorithm$ 使用了动态规划算法来解决类似HMM和CRF的预测问题, 用维特比算法可以找到概率最大路径, 也就是最优路径, 在我们今天要解决的序列标注问题中, 就要通过维特比算法, 来找到文本所对应的最优的实体标注序列.

如果用一句话来概括维特比算法, 那就是:
在每一时刻, 计算当前时刻落在每种隐状态的最大概率, 并记录这个最大概率是从前一时刻哪一个隐状态转移过来的, 最后再从结尾回溯最大概率, 也就是最有可能的最优路径.

我们这里为了学习维特比方便, 所以转换一下标签（非常重要）:

$A_{i, j}^{t-1, t}$ , 是转移概率矩阵 $A$ 中的第 $i$ 行第 $j$ 列(下标), 指的是在 $t - 1$ 时刻实体标签为 $q_i$ , 而在 $t$ 时刻实体标签转换到 $q_j$ 的概率.
$B_{jk}$ 是发射矩阵的第j行第k列, 指的是在第 $t$ 时刻, 由隐状态 $q_j$ 生成观测 $v_k$ 的概率.
有了上面两点, 则 $\hat{q}_j = A_{ij}B_{jk}$ 表示在 $t$ 时刻的隐状态为 $q_j$ 的概率估计.

维特比具体计算方式见此，但不要求掌握。