Michael collins nlp课程笔记（二）Tagging Problems, and Hidden Markov Models

最新推荐文章于 2022-02-16 16:38:13 发布

nlp_znt

最新推荐文章于 2022-02-16 16:38:13 发布

阅读量562

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qq_33355980/article/details/84934638

版权

自然语言处理专栏收录该内容

5 篇文章 1 订阅

订阅专栏

讲义链接：http://www.cs.columbia.edu/~mcollins/hmms-spring2013.pdf

一、标注问题

标注问题的任务是对于一个序列，给出其标记序列，也称为序列标记问题。nlp中常见的两种标记问题是词性标记和命名实体识别。下面给出两个例子：

在命名实体识别中，咋一看不像是标注问题，如果将不是实体部分的单词标记为NA，则整个句子的所有单词都有了对应的标记，也就可以看成是标注问题了。一个更加直观的例子：

二、标注问题的生成模型

2.1 问题的定义及转换

定义x是一个单词序列，y是标注序列，标注问题的任务就是学习一个函数 $f : X \rightarrow Y$ ，将句子映射到标注序列。可将函数视为一个条件概率模型： $f(x) = \arg \max \limits_{y \in Y} p(y|x)$ 。根据贝叶斯公式 $p(y|x) = \frac {p(x,y)}{p(x)} = \frac {p(x|y)*p(y)}{p(x)}$ ，有：

所以，实际上，任务变成了对 p(y) 和 p(x|y) 建模。

2.2 隐马尔科夫模型

容易发现 p(y) 其实和语言模型中的句子概率相似，只是这里单词变成了tag，其建模也同样可以采用马尔科夫模型。但由于序列不是观测序列，是隐变量，所以称为隐马尔科夫模型。

隐马尔科夫模型的的关键思想是：

这里做了两个重要的假设。假设一是假设第i个tag只与前两个tag有关，即：

假设二是假设第i个单词的出现概率仅与第i个tag有关，与其他tag无关，也与它前面的单词无关，即：

在三元隐马尔科夫模型中，我们可以认为一个句子是通过一下过程生成的：

其中，定义和。

2.3 三元隐马尔科夫模型的参数估计

模型中的参数有： q(s|u,v) 和 e(x|s) 。通过极大似然估计法对参数进行估计，有：

其中， c(u,v,s) 和 c(u,v) 分别表示三元标签和二元标签在训练语料中的出现次数， $c(s \rightarrow x)$ 和 c(s) 分别表示标签s和单词x对应出现以及标签s出现的次数。

2.4 模型的解码——维特比算法

当我们估计出模型的参数后，下一步要做的就是计算出 $y = \arg \max \limits_{y \in Y} p(y|x)$ 。最直接、最暴力的做法当然就是算出所有可能的的条件概率，找到概率最大的那个。显然，这样子算的时间复杂度是指数级别的。因此，我们需要更加高效的计算方法——维特比算法。维特比算法本质上是用动态规划算法来求解最大概率路径。

首先，定义函数：，则有。为了方便，我们先定义 $K_k,k \in \{-1...n\}$ ，表示序列中第k个位置可能的标签的集合。具体来说，有 $K_{-1} = K_0 = \{*\},K_k = K(k \in \{1...n\})$ ，其中表示标签的集合。

那么，对于任意的 $k \in \{1...n\},u \in K_{k-1},v \in K_k$ ，定义 S(k,u,v) 是所有序列 $y_{-1},y_0,y_1,...,y_k$ 的集合，其中 $y_{k-1} = u,y_k = v,y_i \in K_i ,\; for\;i \in \{-1...k\}$ 。也就是说是满足长度为，并且以 bigram(u,v) 结尾的所有序列的集合。定义，则 $\pi(k,u,v)$ 表示长度为，并且以结尾的所有标注序列中的最大概率。容易得到如下基本情况和递推关系式：