Abstract
最先进的命名实体识别系统在很大程度上依赖于手工制作的特征和特定领域的知识,以便有效地从现有的小型、有监督的训练语料库中学习。本文介绍了两种新的神经网络结构,一种是基于双向LSTMs和条件随机场的,另一种是基于移位-归约解析器的基于转换的方法构造和标记片段。我们的模型依赖于两个单词信息源:从有监督语料库中学习的基于字符的单词表示和从未注释语料库中学习的无监督单词表示。我们的模型不需要借助任何特定语言的知识或资源(如地名录),就可以在四种语言中获得最先进的表现。
1 Introduction
命名实体识别(NER)是一个具有挑战性的学习问题。一方面,在大多数语言和领域中,只有很少量的监督训练数据可用。另一方面,可以作为名称的单词种类几乎没有限制,因此很难从这一小样本数据中进行泛化。结果,精心构造的正交特征和特定于语言的知识资源(例如地名词典)被广泛用于解决此任务。不幸的是,在新的语言和新的领域中开发特定于语言的资源和功能的成本很高,这使NER成为适应挑战。从无注释的语料库中进行无监督学习为从少量监督中获得更好的泛化提供了另一种策略。但是,即使是广泛依赖于无监督功能的系统(Collobert et al ., 2011; Turian et al., 2010; Lin and Wu, 2009; Ando and Zhang, 2005b, inter alia) ,也使用这些特征来增加手工设计的特征(例如,关于特定语言中大写模式和字符类的知识)和专门知识资源(例如地名录)。
在这篇文章中,我们提出了一个神经网络架构,除了少量有监督的训练数据和未标记的语料库外,不使用特定语言资源或特征。我们的模型设计用来捕捉两种直觉。首先,由于名称通常由多个标记组成,因此对每个标记的决策进行联合推理非常重要。我们在这里比较了两个模型:(i)一个双向LSTM,其上有一个顺序条件随机层(LSTM-CRF;§2);和(ii)一个新的模型,它使用基于转换的解析算法构造并标记输入句子块,状态由堆栈LSTM表示(S-LSTM;§3)。其次,“成为名字”的标记级证据包括正字法证据以及分布证据。
在英语、荷兰语、德语和西班牙语中的实验表明,我们能够用荷兰语、德语和西班牙语的LSTM-CRF模型获得最先进的NER性能,并且非常接近英语的最新水平,而不需要任何手工设计的特征或地名录(§5)。基于转换的算法同样优于以前在几种语言中发布的最佳结果,尽管它的性能不如LSTM-CRF模型。
2 LSTM-CRF Model
我们简要介绍了LSTMs和crf,并提出了一种混合标记体系结构。这种架构与Collobert等人(2011)和Huang等人(2015年)提出的架构类似。
2.1 LSTM
循环神经网络(RNN)是对顺序数据进行操作的一系列神经网络。它们将向量序列(x1,x2,...,xn)作为输入,并返回另一个序列(h1,h2,...,hn),该序列表示有关输入中每个步骤的一些信息。尽管从理论上讲,RNN可以学习长时间的依赖关系,但实际上它们无法做到这一点,并且倾向于偏向于序列中的最新输入(Bengio等,1994)。长期短期记忆网络(LSTMs)被设计成通过加入一个存储单元来解决这个问题,并且已经被证明能够捕获长程依赖关系。他们使用几个门来控制输入到存储单元的比例,以及从先前状态到遗忘的比例(Hochreiter和Schmidhuber,1997)。我们使用以下实现:
其中σ是按元素的Sigmoid函数,是element-wise product。
对于给定的句子 (x1, x2, . . . , xn) 包含n个单词,每个单词表示为一个d维向量,LSTM在每个单词t处计算句子左上下文的表示。当然,生成右上下文的表示