从HMM到CRF到LSTM+CRF

最新推荐文章于 2024-07-30 10:44:16 发布

JokerDuuuu

最新推荐文章于 2024-07-30 10:44:16 发布

阅读量1.1w

点赞数 16

分类专栏：深度学习机器学习文章标签：深度学习 LSTM+CRF 机器学习 tensorflow实现

本文链接：https://blog.csdn.net/u011724402/article/details/82078328

版权

本文深入探讨了从马尔科夫模型到隐马尔科夫模型（HMM），再到条件随机场（CRF）的理论，特别聚焦于LSTM+CRF模型。文章介绍了HMM的基本概念，包括前向算法和维特比算法，并详细阐述了CRF的矩阵表示和线性链CRF。接着，文章讨论了LSTM+CRF模型，解释了如何结合LSTM的上下文信息和CRF的序列约束进行序列标注。此外，还提供了LSTM+CRF在命名实体识别（NER）中的应用实例和TensorFlow的CRF层实现解析。

摘要由CSDN通过智能技术生成

在实习的时候有用到LSTM+CRF，但以前对HMM、CRF理论了解的不多，导致自己在理论方面有所欠缺。因此特此写一篇从HMM到CRF再到LSTM+CRF中的非纯理论性质的文章，算是一个阶段性笔记和总结。
本文的侧重点还是以LSTM+CRF为主，对于LSTM+CRF中依赖到的HMM、CRF中的概念会做详细说明，主要包含几个部分：

马尔科夫模型

隐马尔科夫模型(HMM)

HMM中的前向算法

维特比算法(viterbe)

条件随机场(CRF)

CRF中的矩阵表示

CRF中的前向算法

LSTM+CRF模型

LSTM+CRF中CRF层

源码解析

本文长而杂，阅读须谨慎。

0. Markov Model

之前也看过隐马尔科夫模型，也知道它有转移矩阵A、观测矩阵B。但是看完没多久又忘了，又说不出。所以还是概念不清楚。这里再巩固下。

在隐马尔科夫模型前，先忘掉HMM中的状态或观测的概念，先引入马尔科夫模型的概念。

假设我们有一个随机变量序列 $X=(X_1, X_2, ..., X_T)$ ，它们的取值都来自一个状态集合 $S=\{s_1, s_2, ..., s_{|S|}\}$ ，将状态值带入到随机变量序列中我们就得到了一个长度为 $T$ 的状态序列。以天气系统为例， $S=\{sun, cloud, rain\}$ ， $|S|=3$ ，当观测长度为 $T=3$ 时，可能的一个状态序列为 $\{X_1=s_{sun}, X_2=s_{cloud}, X_3=s_{rain}\}$ 。

上面的状态序列，在马尔科夫模型中做了两个假设：

Limited Horizon：

$P (S t + 1 = s k ∣ X 1, X 2, . . ., X t) = P (S t + 1 = s k ∣ X t)$ $P(S_{t+1}=s_k\mid X_1, X_2, ..., X_t) = P(S_{t+1}=s_k\mid X_t)$

即下一个状态的输出概率只与上一个状态有关
Time Invariant

$P (S t + 1 = s k ∣ X t) = P (X 2 = s k ∣ X 1)$ $P(S_{t+1}=s_k\mid X_t) = P(X_{2} = s_{k} \mid X_{1})$

即状态 $S_{t+1}$ 与 $S_t$ 输出概率之间的关系与时刻t无关，不会应为时刻不同而改变。

在马尔科夫模型中，为了确定状态到状态的转移概率，因此我们需要定义状态转移矩阵 $A$ ，而在状态到达初始时刻则需要定义初始状态概率向量 $\pi$ 。

下面以一个例子说明马尔科夫模型：

(1) 记状态序列为

S = {0, 1}

$S=\{0, 1\}$

(2) 初始状态概率为

π = {π 1, π 2} = {0.2, 0.8}

$\pi=\{\pi_1, \pi_2\}=\{0.2, 0.8\}$

(3) 转移矩阵为

A = X t ∖ X t + 1 01 0 0.3 0.6 1 0.7 0.4

$A = \begin{array}{c|c} _{X_{t}}\setminus _{X_{t+1}} & 0 & 1 \\\hline \hline 0 & 0.3 & 0.7 \\ \hline 1 & 0.6 & 0.4 \\ \end{array}$

对应的转移状态图为

这里写图片描述

则状态序列为1011的概率为：

P (X 1 = 1, X 2 = 0, X 3 = 1, X 4 = 1) = π 1 \times P (X 2 = 0 ∣ X 1 = 1) \times P (X 3 = 1 ∣ X 2 = 0) \times P (X 4 = 1 ∣ X 3 = 1) = 0.8 \times 0.6 \times 0.7 \times 0.4 = 0.1344

$\begin{aligned} &P(X_{1}=1,X_{2}=0,X_{3}=1,X_{4}=1) \\[6pt] &=\pi_{1} \times P(X_{2}= 0 \mid X_{1} = 1) \times P(X_{3}= 1 \mid X_{2} = 0) \times P(X_{4}= 1 \mid X_{3} = 1) \\[6pt] &= 0.8 \times 0.6 \times 0.7 \times 0.4 \\[6pt] &= 0.1344 \end{aligned}$

从上面这个例子可以看到，马尔科夫模型只能解决简单的状态转移问题。也即我观测到了一个状态序列，同时我知道状态间如何转移，那么我就知道整个状态产生的概率。但如果我们无法观测到这个状态序列，该怎么办？

一个典型的例子就是Ice Cream Climatology问题，我想预测一段时间的气候是HOT还是COLD，但是我我无法观测到这段时间的气候是什么，我只能观测到我每天吃了多少个冰激凌。因此对我来说，气候就是个隐含序列，真正的观测序列是我这段时间吃的冰激凌数目序列。

另一个例子就是NLP中词性标注(POS Tagging)问题，我有两个序列，一个是句子序列，一个是句子中每个词的词性构成的标记序列。但实际中我通常只有句子序列，在预测前词性无法得知，因此词性就是个隐含序列。

当实际问题中即包含观测序列又包含隐含的状态序列时，就需要隐马尔科夫了。

1. Hidden Markov Model

隐马尔科夫模型包含两个序列，一个状态序列 $Q=\{q_{1},q_{2},...,q_{n}\}$ ，一个观测序列 $O=\{o_{1},o_{2},...,o_{n}\}$ ，每个状态 $q_i$ 生成一个观测 $o_i$ 。在隐马尔科夫模型中，做了一个输出独立的假设：

P (o t ∣ i T, o T, i T - 1, o T - 1, . . ., i t + 1, o t + 1, i t, i t - 1, o t - 1, i 1, o 1) = P (o t | i t)

$P(o_t \mid i_T, o_T, i_{T-1}, o_{T-1},...,i_{t+1}, o_{t+1}, i_t, i_{t-1}, o_{t-1}, i_1, o_1) = P(o_t|i_t)$

即t时刻的观测值只依赖于t时刻的状态，与其他时刻状态无关。符号系统我沿用了《统计学习方法》。

隐马尔科夫模型同样需要初始向量 $\pi$ ，状态转移矩阵 $A$ 。由于我们多引入了一个观测序列，因此需要额外定义一个观测概率矩阵 $B$ ，用于描述某个状态 $q_t$ 产生某个观测值 $o_t$ 的概率。 $\lambda=(A, B, \pi)$ 即模型的参数。

在隐马尔科夫模型中，有3个基本问题，这里我主要描述其中的两个：

(1) 概率计算问题：给定模型 $\lambda=(A, B, \pi)$ 和观测序列 $O=\{o_{1},o_{2},...,o_{n}\}$ ，求观测 $O$ 出现的概率 $P(O|\lambda)$

(2) 预测问题：给定模型 $\lambda=(A, B, \pi)$ 和观测序列 $O=\{o_{1},o_{2},...,o_{n}\}$ ，求条件概率 $P(I\mid O)$ 最大的隐含状态序列 $I = \{i_i, i_2, ..., i_T\}$

1.1 前向算法

求观测序列 $O$ 出现的概率的一种方式是求出所有状态序列 $I$ 产生观测序列 $O$ 的概率。这里要求出所有可能的状态序列是不可行的。思路是对的，但是有种更高效的计算方式。记前向概率为：

α_{t} (i) = P (o_{1}, o_{2}, . . ., o_{t}, i_{t} = q_{i} ∣ λ)

$\alpha_t(i)=P(o_1, o_2, ..., o_t,i_t=q_i \mid \lambda)$

表示到t时刻部分观测序列为 o

最低0.47元/天解锁文章

JokerDuuuu

关注

16
点赞
踩
97

收藏

觉得还不错? 一键收藏
7
评论
从HMM到CRF到LSTM+CRF

在实习的时候有用到LSTM+CRF，但以前对HMM、CRF算法了解的不多，导致自己在理论方面有所欠缺。因此特此写一篇从HMM到CRF再到LSTM+CRF中的非纯理论性质的文章，算是一个阶段性笔记和总结。本文的侧重点还是以LSTM+CRF为主，对于LSTM+CRF中依赖到的HMM、CRF中的概念会做详细说明，主要包含几个部分：马尔科夫模型隐马尔科夫模...
复制链接

扫一扫

专栏目录