结构学习:序列标注

1. 什么是序列标注

  序列标注的的输入是一个序列,他的输出也是一个序列。一个典型的例子就是词性标注(pos tagging)。在日常中用的词有的是名词,有的是动词,但是动词中还有专有名词,非专有名词等。所以对于词性的标注还是有必要的。比如说就像下图那样

词性标注(pos tagging)对后续的句法分析和词义消歧有用,甚至可以用来抽取一段文字中的关键词。

  但是这个过程不是仅仅通过查表的方法就可以得到的,还需要理解整个句子的含义,如下图所示

在上面这个例子中有两个 saw ,其中第一个 saw 是动词,而第二个 saw 是名次,所以需要理解整个句子的含义才能做出正确的词性标注。

2. 隐马尔科夫模型(Hidden Markov Model,HMM)

  在这里HMM有着自己的假设,具体如下

首先在第一步,基于语法我们产生一个词性序列;第二步我们基于一个字典,产生一个基于词性语句的实际语句。

  具体来讲,HMM的第一步如下图所示

在这里生成的每一个句子都是从 start 开始,然后沿着他的路径以某一个概率到达下一个点,知道到达最后的 end。这样我们就产生了第一个,词性语句,比如说得到的了如下的词性语句,同时我们可以计算产生这种词性语句的概率。

  根据产生的词性语句,可以有字典产生对应单词构成语句,如下图所示

如上图为产生的句子以及产生这个句子的概率。

  所以对于HMM来讲,词性标注的过程可以表示为如下的形式

词性与单词同时出现的概率如上图所示,可以利用条件概率进行计算,其中产生 p(y) 的概率的计算过程可以看作是一系列的条件概率相乘;而 p(x|y) 的概率的计算过程如图所示,计算完这两个部分就可以计算上述的 p(x,y)

  我们将两个过程概述为如下的形式

其中的 p(y) 可以表示为如上的计算形式,首先是从 start 转移到 y1 的概率,然后 y 之间的概率的转移形式,最后是转移到 end 的概率。而 p(x|y) 的概率也可以通过上面的式子进行计算。

  虽然我们知道计算的过程可以使用上面的那种形式,但是其中的每一项又是如何计算的呢?实际上是在训练数据中得到的,具体如下图所示

这里写图片描述

通过语言学家对训练数据中的每一单词的词性进行标注,然后在训练数据中统计所需要的概率,比如说 P(V|PN),P(saw|V)

  所以现在回过头来看整个过程的计算如下

其中蓝色线的部分可以使用如图的计算方式,就是在某一个词性下,另一个词性出现的概率就等于在训练数据中这个词性出现的次数分之这个词性与下一个词性同时出现的次数。 P(xl=t|yt=s) 也是类似的计算方法,剩下的都是相似的方法。

  那如何进行在给定了输入的时候完成词性标注呢?如下图所示

如上图所示,这个时候我们的任务就是给定一个输入的句子 x ,希望得到句子中每一个单词的词性 y,这里通过上述的方法计算,其中标签应该是在给定输入时使这个后验概率最大的 y 的值,我们可以将条件概率写成联合概率与 P(x)

  • 7
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值