Coursera自然语言处理 Week2 笔记

最新推荐文章于 2024-09-23 18:03:01 发布

LVB10101111

最新推荐文章于 2024-09-23 18:03:01 发布

阅读量339

点赞数

分类专栏：自然语言处理Coursera By M. Collins 文章标签：自然语言处理 nlp

本文链接：https://blog.csdn.net/u013515273/article/details/78231106

版权

自然语言处理Coursera By M. Collins 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

第二周的课程讲了TAGGING问题，即如何给句子tag上词态。

比如说，如果输入：The dog laughs，就需要模型输出：DT NN VB

整个Tagging模型可以抽象成如下结构：

现在将这个抽象结构转换成概率模型。

1. 概率模型-HMM

输入：一句话 $S=\{x_1,x_2,x_3,...,x_n\}$

Tagging过程：在现有tags中寻找一组 $tags=\{y_1,...,y_n\}$ ，使得 $P(y_1,...,y_n|x_1,...,x_n)$ 最大，即：

$y 1, y 2, . . ., y n = arg min y 1, . . ., y n P (y 1, . . ., y n | x 1, . . ., x n)$ $y_1,y_2,...,y_n=\mathop{\arg\min}_{y_1,...,y_n}P(y_1,...,y_n|x_1,...,x_n)$

输出： $tags=\{y_1,y_2,y_3,...,y_n\}$

下面推导 Tagging过程：

arg min y 1, . . ., y n P (y 1, . . ., y n | x 1, . . ., x n) = arg min y 1, . . ., y n P ( x 1 , . . . , x n | y 1 , . . . , y n ) P ( y 1 , . . . , y n ) P ( x 1 , . . . , x n ) = arg min y 1, . . ., y n P (x 1, . . ., x n | y 1, . . ., y n) P (y 1, . . ., y n)

$\mathop{\arg\min}_{y_1,...,y_n}P(y_1,...,y_n|x_1,...,x_n)=\mathop{\arg\min}_{y_1,...,y_n}\frac{P(x_1,...,x_n|y_1,...,y_n)P(y_1,...,y_n)}{P(x_1,...,x_n)}\\ \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \ =\mathop{\arg\min}_{y_1,...,y_n}P(x_1,...,x_n|y_1,...,y_n)P(y_1,...,y_n)$

其中， $P(y_1,...,y_n)$ 可以根据Week1中讲到的Markov Process近似得到（Trigram）：

P (y 1, . . ., y n) = \prod i = 1 n P (y i | y i - 1, y i - 2)

$P(y_1,...,y_n)=\prod_{i=1}^{n}P(y_i|y_{i-1},y_{i-2})$

然后对于 $P(x_1,...,x_n|y_1,...,y_n)$ ，可以假设 $x_i$ 只与 $y_i$ 有关，则：

P (x 1, . . ., x n | y 1, . . ., y n) = P (x 1 | y 1) P (x 2 | y 2) . . . P (x n | y n) = \prod i = 1 n P (x i | y i)

$P(x_1,...,x_n|y_1,...,y_n)=P(x_1|y_1) P(x_2|y_2) ... P(x_n|y_n)=\prod_{i=1}^{n}P(x_i|y_i)$

于是tagging过程可以写成如下形式：

y 1, y 2, . . ., y n = arg min y 1, . . ., y n \prod i = 1 n P (y i | y i - 1, y i - 2) \prod i = 1 n P (x i | y i)

$y_1,y_2,...,y_n=\mathop{\arg\min}_{y_1,...,y_n}\prod_{i=1}^{n}P(y_i|y_{i-1},y_{i-2})\prod_{i=1}^{n}P(x_i|y_i)$

为方便起见，在 $y_1,...,y_n$ 中增加 $y_{-1}=y_0=*$ 和 $y_{n+1}=STOP$ ，再令 $q(y_i|y_{i-1},y_{i-2})=P(y_i|y_{i-1},y_{i-2})$ ， $e(x_i|y_i)=P(x_i|y_i)$ 于是上式改写成：

y 1, y 2, . . ., y n = arg min y 1, . . ., y n \prod i = 1 n + 1 q (y i | y i - 1, y i - 2) \prod i = 1 n e (x i | y i)

$y_1,y_2,...,y_n=\mathop{\arg\min}_{y_1,...,y_n}\prod_{i=1}^{n+1}q(y_i|y_{i-1},y_{i-2})\prod_{i=1}^{n}e(x_i|y_i)$

惊奇地发现，隐马尔科夫模型出现了，其中 $\prod_{i=1}^{n+1}q(y_i|y_{i-1},y_{i-2})$ 就是隐马尔可夫链， $\prod_{i=1}^{n}e(x_i|y_i)$ 被称为emission probability。

2. 求解概率模型

一般的思想就是穷举所有可能的 $tags=\{y_1,...,y_n\}$ ，计算对应的 $P(y_1,...,y_n|x_1,...,x_n)$ ，然后选取使概率最大的tags。穷举的效率肯定是十分低的，优化的方式就是“动态规划”。下面介绍动态规划算法“Viterbi Algorithm”。

2.1 Viterbi算法

假设前 $k-1$ 个tags已经选择好了，即 $(y_1,y_2,...,y_{k-1})$ 已经使 $P(x_1,...,x_{k-1},y_1,...,y_{k-1})$ 最大了；接下来考虑第 $k$ 个tag的选择。

选择的这个tag $y_k$ 得让 $P(x_1,...,x_{k-1},x_k, y_1,...,y_{k-1},y_k)$ 最大，而：

P (x 1, . . ., x k - 1, x k, y 1, . . ., y k - 1, y k) = \prod i = 1 k - 1 q (y i | y i - 1, y i - 2) \prod i = 1 k - 1 e (x i | y i) \times q (y k | y k - 1, y k - 2) e (x k | y k)

$P(x_1,...,x_{k-1},x_k, y_1,...,y_{k-1},y_k)=\prod_{i=1}^{k-1}q(y_i|y_{i-1},y_{i-2})\prod_{i=1}^{k-1}e(x_i|y_i) \times q(y_k|y_{k-1},y_{k-2})e(x_k|y_k)$

即只要让 $q(y_k|y_{k-1},y_{k-2})e(x_k|y_k)$ 最大即可。