基于深度学习的自然语言处理 第七章

NLP特征的案例分析

在讨论了用于从自然语言中获取特征的不同信息来源后,我们继续探讨具体的NLP分类任务实例,以及适合它们的特征。

7.1 文本分类:语言识别

在语言识别任务中,给定一个文档或句子,希望判别是哪一种语言。正如第二章看到的,字母级二元文法词袋(bag of letter-bigrams)是这个任务的一个非常强的特征表示。具体来说,每一个二阶字母是一个核心特征,对于给定的文档,其核心特征是该特征在文档中的计数。

7.2 主题分类

在主题分类任务中,对于给定的文档,需要将它们归类为一组主题。
在这里,字母级别的信息不是很翔实,我们将词作为基本单位。词序对任务不是很有帮助。所以,一个好的特征集可能是文档的词袋,也许伴随着二元文法词袋。

7.3 文本分类:作者归属

在作者归属任务中,对于给定的文本,推断作者的身份,或者文本作者的其他特征,例如他们的性别、年龄或者母语。
用于解决此任务的信息类型与主题分类不同,涉及文本的文体属性而不是内容词。
对这些任务,一个好的特征集专注于词性(pos)标签和功能词。(of on and the),着眼于这些特征,我们可以捕捉写作中微妙的问题变化。

7.4 上下文中的单词:词性标注

在词性标注任务中,给定一个句子,我们需要给句子中的每个单词分配正确的词性。词性来自于一个预定的集合,包含17个词性标签。

7.5上下文中的单词 命名实体识别

在命名实体识别(NER)任务中,给定一篇文档,需要找到命名实体,如Milan、John、以及Smith、以及Paris,讲他们归类为一组预定义的类别,如位置、机构、人物或其他。值得注意的一点是,这项任务是依赖于上下文的。比如Milan可以代表位置,也可以代表机构。
为该任务设置的核心特征类似于词性标注任务中的特征,它依赖于举例焦点单词每侧长度为2的窗口中的单词。

7.6 上下文中中单词的语言特征:介词词义消歧

介词如on,in,with以及for等,用于将谓语与它的论元以及名词与它的前缀修饰词连接起来。介词非常常见,也容易引起歧义,如下面几个句子中的for:
a.We went there for lunch
b.He paid for me
c.We ate for two hours
d.He would have left for home
四个句子中的for表达着不同的含义:a目的,b受益者,c时间,d地点。
为了充分理解句子的含义,你应该知道句中介词二点正确含义。介词消歧任务处理是从有限的语义集合中选择正确的意义分配给上下文中的介词。
考虑以下句子:
a.He liked the round object from the very first time he saw it.
b.He saved the round object from him the very first time they saw it.
这两个例子中的from表达不同的语义,但大多词的窗口信息并不具很大的信息量,甚至有误导性。我们需要一个更好的机制来选择信息量较大的上下文。一种方法是使用启发式规则,例如,左边的第一个动词和右边的第一个名词。这些将捕捉一个三元组<liked,from,time>以及<saved,from,him>,其中确实包含了介词语义的本质。在语言学方面,我们说,这种启发式能够帮助我们捕捉介词的调控器和对象。通过知道介词的语义以及它的调控器和对象,并使用关于单词的细粒度语义的推理过程,我们可以在许多情况下推断介词的语义。提取对象和调控器的启发式规则要求使用词性标注工具,以识别名词和动词。但不难想象,针对一些例子,这种机制也会失败。我们可以用更多的规则来改进启发式,但是更健壮的方法是使用依存分析器:从语法树中可以轻松地获取调控器和对象信息,从而减少了对复杂启发式规则的需要。
当然,用于生成树的分析器也可能是错误的。为了鲁棒性,我们可以同时查看从分析器中提取的控制器和对象,以及使用启发式提取的调控器和对象,并将这四个作为特征来源,让学习过程决定哪一来源更加可靠。
在提取了调控器和对象之后,我们可以利用它们作为进一步特征提取的基础,对于每个项目,我们可以提取以下信息:
单词确切的字面形式
单词的词元
单词的词性
单词的前缀和后缀
词簇以及词的分布式向量表示
如果我们允许外部词汇资源的使用,使用基于WordNet的特征也很有用,对于每个调控器和对象,我们可以提取许多WordNet指示器,例如:
单词是否具有WordNet词项
单词第一个同义词集合的上位词
单词所有同义词集合的上位词
单词第一个同义词集合的同义词
单词所有同义词集合的同义词
单词定义的所有词项
单词的超语义
其他指示器的变种
介词语义消歧任务是一个高层次的语义分类问题。为此,我们需要一组无法从字面中轻易推断出来的特征,并且可以利用从语言预处理(即词性标注和句法分析)以及手工编篡的语义词汇资源中选择的信息片段。

7.7 上下文中单词的关系:弧分解分析

在依存任务中,给定一个句子,需要返回一个语法依存树,每个词语都被分配了一个父词语,除了句子中主词语的根节点是root结点。
对任务建模的一种方法是弧分解法,其中每个可能的n²个词-词关系被分配一个独立的分数,然后我们搜索得到一个最大化总体分数的有效的树。分数通过训练好的打分函数arcscore(h,m,sent)分配,接收给定的句子以及句子中分配的候选词对h,m(h是候选词的索引,m是候选词修饰词的索引)。在这里,我们主要讨论打分函数中用到的特征。
我们开始于最普通的猜测:
头词的字面形式以及词性。
修饰词的字面形式以及词性。
与头词在同一窗口中的单词与词性,以及其位置。
与修饰词在同一窗口中的单词与词性,以及其位置。
我们使用词性以及单词本身的字面形式。单词本身的字面形式给我们提供了非常丰富的信息。例如,对于吃,蛋糕是一个很好的候选对象,而词性提供更低级的语法信息以得到更好的泛化性能。例如,限定词和形容词对名词来说是好的修饰词,而名词对动词来说是好的修饰词。由于依存树的训练语料库规模有限,使用词簇和预训练的词嵌入等分布信息来补充或者替换单词可能是一个好主意。
除了这些特征,也可以考虑如下特征。
词w(h)与w(m)在句中的举例,举例更能代表一个依存关系。
单词之间的方向
头词和修饰词之间的所有词(词性标注)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值