HMM在自然语言处理中的应用

最新推荐文章于 2024-05-21 00:00:00 发布

秋曾万

最新推荐文章于 2024-05-21 00:00:00 发布

阅读量1.6k

点赞数

分类专栏： nlp 文章标签： nlp hmm

本文链接：https://blog.csdn.net/weixin_41679411/article/details/81026545

版权

nlp 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

读者可以去我的github阅读一份可读性高的HMM用于NER识别的代码，欢迎点star，欢迎fork

一、HMM基本概念的介绍

以一个例子介绍HMM，可以避开抽象的定义：
例如：N个袋子，每个袋子中有M种不同颜色的球。一实验员根据某一概率分布选择一个袋子，然后根据袋子中不同颜色球的概率分布随机取出一个球，并报告该球的颜色。对局外人：可观察的过程是不同颜色球的序列，而袋子的序列是不可观察的。每只袋子对应HMM中的一个状态；球的颜色对应于HMM中状态的输出。

状态转移概率矩阵为 $A = a_{ij}$ , $a_{ij}$ 为实验员从一只袋子(状态 $s_i$ ) 转向另一只袋子(状态 $S_j$ ) 取球的概率。
从状态 $S_j$ 观察到某一特定符号 $v_k$ 的概率分布矩阵为：
$B=b_j(k)$
其中， $b_j(k)$ 为实验员从第 $j$ 个袋子中取出第 $k$ 种颜色的球的概率。

为了方便，一般将HMM记为： $\mu = (A,B,\pi)$

HMM的三个问题：

在给定模型 $\mu =(A, B, \pi)$ 和观察序列 $O＝O_1,O_2…O_T$ 的情况下，怎样快速计算概率 $p(O|\mu)$ ?
在给定模型 $\mu=(A, B,\pi)$ 和观察序列 $O＝O_1,O_2…O_T$ 的情况下，如何选择在一定意义下“最优”的状态序列 $Q = q_1, q_2,...,q_T$ ，使得该状态序列“最好地解释”观察序列？
给定一个观察序列 $O＝O_1,O_2,…,O_T$ ，如何根据最大似然估计来求模型的参数值？即如何调节模型的参数，使得 $p(O|\mu)$ 最大？

二、 HMM第一个问题的求解

$p(O|\mu)$ 可以由如下式计算

$p(O|\mu) = \sum_Q p(O,Q|\mu) = \sum_Qp(Q|\mu)*p(O|Q,\mu)$

其中

$P(Q|\mu) = \pi_{q_1}*a_{q_1q_2}*a_{q_2q_3}*...*a_{q_{T-1}q_T}$

$p(O|Q,\mu) = b_{q_1}(O_1)*b_{q_2}(O_2)*...*b_{q_T}(O_T)$
相当于对所有Q的可能性的求和。

遍历计算复杂度太高，利用动态规划降低复杂度。

$\alpha_t(i) = p(O_1O_2...O_t,q_t = S_i|\mu)$
如果可以高效地计算 $\alpha_t(i)$ ,就可以高效地求得 $P(O|\mu)$

事实上有如下递推公式：
$\alpha_{t+1}(j) = [\sum_{i=1}^N \alpha_t(i)a_{ij}]*b_j(O_{t+1})$

三、 HMM第二个问题的求解

问题二的本质是如何发现最优状态序列去最好地解释观察序列

一种解释是：状态序列中每个状态都单独地具有概率，对于每个时刻t，寻找 $q_t$ 使得 $\gamma_t(i) = p(q_t = S_i|O,\mu)最大$

另一种解释：在给定模型 $\mu$ 和观察序列 $O$ 的条件下求概率最大的状态序列：
$\tilde Q = arg max p(Q|O,\mu)$

Viterbi算法：动态规划最优状态序列
定义：Viterbi 变量是在时间 $\delta_t(i)$ 时，模型沿着某一条路径到达 $S_i$ ，输出观察序列$O＝O_1O_2 …O_t $的最大概率为：
$\delta_t(i) = \mathop{}_{q_1,q_2,...,q_{t-1}}^{max} p(q_1,q_2,...,q_t = S_i,O_1O_2...O_t|\mu)$

递归算法： $\delta_{t+1}(i) = \mathop{}_j^{max}[\delta_t(j)\cdot a_{ji}]\cdot b_i(O_{t+1})$

解释一下这个式子：
模型沿着某一条路径到达 $S_{i+1}$ ,输出观察序列 $O = O_1O_2...O_{t+1}$ 的最大概率为在t时刻到达状态中选取使此式概率最大的j，因此最大概率之间构成递推关系，我们可以用Viterbi算法去求解。

四、HMM第三个问题的求解：

参数学习

给定一个观察序列 $O = O_1O_2…O_T$ ，如何根据最大似然估计来求模型的参数值？或者说如何调节模型 $\mu$ 的参数，使得 $p(O|\mu)$ 最大？即估计模型中的 $\pi_i, a_{ij}, b_j(k)$ 使得观察序列O的概率$p(O|\mu) $最大。

即通过观察序列去重建模型中的参数

如果产生观察序列 $O$ 的状态 $Q = q_1q_2…q_T$ 已知(即存在大量标注的样本),可以用最大似然估计来计算 $\mu$ 的参数：

各估计如下：
$\tilde p_i = \delta(q_1,S_i)$

$\tilde a_{ij} =\frac{Q中从状态q_i转移到q_j的次数}{Q中所有从状态q_i转移到另一状态（包括q_j自身）的总数} =\frac{\sum_{t=1}^{T-1} \delta(q_t,S_i)*\delta(q_{t+1},S_j)}{\sum_{t=1}^{T-1} \delta(q_t,S_i)}$