Named Entity Recognition with Bidirectional LSTM-CNNs论文翻译及理解

深度学习 自然语言处理 专栏收录该内容
4 篇文章 0 订阅

摘要

命名实体识别是一个具有挑战性的任务,传统上需要大量的知识,以特征工程和词典的形式来实现高性能。本文提出了一种新的神经网络结构,该结构使用双向LSTM和CNN混合结构来自动检测字级和字符级特征,从而消除了大多数特征工程的需要。我们还提出了一种新的基于神经网络的部分词汇匹配编码方法,并将其与现有的方法进行比较。广泛的评估表明,如果只给出标记文本和公开可用的单词嵌入,我们的系统在CoNLL-2003数据集上是具有竞争力的,并且以2.13点的F1的优势在ontonnotes 5.0数据集上超过了先前报告的最新性能。通过使用从公共可用的源构建的两个词典,我们在CONLL 2003上的F1得分为91.62,OntoNoteS上为86.28,,超越了使用大量特征工程、专有词典和丰富实体链接信息的系统。

1介绍

命名实体识别是自然语言处理中的一项重要任务。高性能方法主要是将CRF、SVM或感知器模型应用于手工制作的特征。然而,Collobert等人提出了一种有效的神经网络模型,该模型几乎不需要特征工程,而是从大量未标记文本上训练的词嵌入中学习重要特征,最近,无监督学习的大量数据和神经网络训练算法的进步使得这种方法成为可能。

不幸的是,Collobert等人提出的模型有许多局限性。首先,它使用一个简单的前向神经网络,将上下文的使用限制在每个单词周围的一个固定大小的窗口内,这种方法丢弃了单词之间有用的长距离关系。其次,仅仅依赖于单词嵌入,它无法利用诸如前缀和后缀之类的显式字符级特征,这些特征对于很少使用单词嵌入的单词来说尤其有用。我们试图通过提出一个更强大的神经网络模型来解决这些问题。

递归神经网络(RNN)是一种研究得很好的方法,它能处理变长输入并具有长期记忆。近年来,RNNs在语音识别、机器翻译和语言建模等多种NLP任务中取得了巨大成功。具有遗忘门的长-短期存储器单元允许容易地学习高度非平凡的长距离依赖关系。对于NER和语音识别等序列标记任务,双向LSTM模型可以有效地考虑单词两边的无限量上下文,并消除适用于任何前馈模型的有限上下文问题。虽然过去Hammerton(2003)曾对NER任务研究过LSTMs,但是由于缺乏计算能力(这导致使用非常小的模型)和高质量的词嵌入限制了它们的有效性。

卷积神经网络(CNN)也被用于建模字符级信息和其他NLP任务。Santos等人和Labeau等人成功使用CNN提取字符级特征,分别用于NER和POS标记。Collobert等人还将CNNs应用于语义角色标记,该架构的变体已应用于解析,其他需要树结构的任务。然而,对于英文NER任务来说,字符级CNNs的有效性还没有得到评估。我们考虑使用字符级双向LSTMs,这是Ling等人最近提出的用于词性标注的,初步评估表明,它的性能并没有明显优于CNN,同时训练的计算成本更高。

我们的主要贡献在于将这些神经网络模型结合起来用于NER任务。们提出了一个双向LSTMs和CNNs的混合模型,它同时学习了字符和单词级别的特征,首次在成熟的英语语言评估数据集上对这种架构进行了评估。此外,由于词汇对NER性能至关重要,我们提出了一种新的词典编码方案和匹配算法,该算法可以利用部分匹配,并将其与其他方法进行比较。广泛的评估表明,我们提出的方法在CoNLL-2003ner共享任务和ontonnotes5.0数据集上都建立了一个新的技术状态。

2 模型

我们的神经网络受到Collobert等人的工作启发。在他们的研究中,查找表将单词和字符等离散特征转换为连续向量表示,然后将其连接并输入神经网络。我们使用双向长短期存储器(BLSTM)网络,而不是前馈网络。为了归纳字符级特征,我们使用了卷积神经网络,该网络已成功地应用于西班牙语和葡萄牙语NER(Santos et al.,2015)和德语词性标注(Labeau et al.,2015)。
遵循Graves等人提出的语音识别框架。我们使用了一种具有长短期记忆单元的叠加双向递归神经网络,用于将单词特征转换为命名实体标记分数。图1、2和3详细说明了网络。
在这里插入图片描述
图1:用于标记命名实体的(展开的)BLSTM。多个表查找单词级特征向量。CNN(图2)从字符级特征中提取固定长度的特征向量。对于每个单词,这些向量被连接并提供给BLSTM网络,然后提供给输出层(图3)。
在这里插入图片描述
图2:卷积神经网络从每个单词中提取字符特征。字符嵌入和(可选)字符类型特征向量是通过查找表计算的。
在这里插入图片描述
图3:输出层(图1中的“Out”)将输出解码为每个标记类别的分数。

每一个词的特征被输入一个前向LSTM网络和一个后向LSTM网络。每个时间步的每个网络的输出被线性层和log-softmax层解码为每个标签类别的对数概率。然后将这两个向量简单地相加以产生最终输出。

我们尝试了输出层架构的一些小变体,并选择了在初步实验中表现最好的一个。

2.1用BLSTM标记序列

遵循Graves等人提出的语音识别框架。我们使用了一种具有长短期记忆单元的叠层双向递归神经网络,用于将单词特征转换为命名实体标记分数。图1、2和3详细说明了网络。
每一个词的特征被输入一个前向LSTM网络和一个后向LSTM网络。每个时间步的每个网络的输出被线性层和log-softmax层解码为每个标签类别的对数概率。然后将这两个向量简单地相加以产生最终输出。

我们尝试了输出层架构的一些小变体,并选择了在初步实验中表现最好的一个。

2.2利用卷积神经网络提取字符特征

对于每个单词,我们使用卷积和max层从高字符特征向量中提取新的特征向量,例如字符嵌入(第2.3.2节)和(可选)字符类型(第2.5节)。根据CNN的窗口大小,单词两边都填充了一些特殊的填充字符。

CNN的超参数是窗口大小和输出向量大小。
在这里插入图片描述

2.3核心特征

2.3.1单词嵌入

我们最好的模型使用Collobert等人发布的公开的50维单词嵌入。是在维基百科和路透社RCV-1语料库上训练出来的。

我们还对另外两组已发布的embeddings进行了实验,分别是斯坦福的GloVe embeddings对来自维基百科和网络文本的60亿单词进行了训练和谷歌的word2ve cembeddings对来自谷歌新闻的1000亿单词进行了训练。

此外,由于我们假设在域内文本上训练的单词嵌入可能表现更好,我们还使用了公共可用的GloVe程序和word2vec程序的内部重新实现来训练维基百科和 Reuters RCV1数据集上的单词嵌入。
以下是Collobert等人。(2011b),所有单词在通过查找表转换为相应的嵌入之前都是小写的。在训练期间,允许修改预先培训的嵌入。

2.3.2字符嵌入

我们随机初始化了一个查找表,在一个范围为【-0.5,0.5】的分布中均匀抽取值,以输出一个25维的字符嵌入。 字符集包括所有CoNLL-2003数据集中的唯一字符加上PADDING和UNKNOWN的特殊标记。PADDING标记用于CNN,UNKNOWN标记用于所有其他字符(出现在ontonnotes中)。所有实验都使用相同的随机嵌入集。

2.4附加字级特征

2.4.1资本化特征

由于大写信息在单词嵌入的查找过程中被删除,我们评估Collobert使用单独的查找表添加大写功能的方法,该方法具有以下选项:allCaps、upperInitial、lowercase、mixedCaps、noinfo。将该方法与字符类型特征(2.5节)和字符级CNNs进行了比较。

2.4.2词典

最先进的NER系统利用词典作为外部知识的形式。

对于CoNLL 2003 NER共享任务定义的四个类别(人员、组织、位置、杂项),我们从DBpedia中编译了一个已知命名实体的列表,通过提取对应于CONLL类别的DbPeDa类型的所有子孙。我们没有为OntONTES标签集构造单独的词典,因为在许多情况下无法发现DPEPEDA类别与其标签之间的对应关系。此外,对于每个条目,我们首先删除括号和其中包含的所有文本,然后去掉尾随标点,最后使用Penn Treebank标记化脚本对其进行标记化,以便进行部分匹配。表1显示了我们从他们的SeNA系统中提取的词汇中的每个类别的大小与Collobert的词典相比。

图4显示了如何应用词汇特征的示例。针对每个词汇类别,我们匹配每个词汇表(最多最长词汇条目的长度)与词汇表中的词条相匹配。当n-gram与条目的前缀或后缀匹配且长度至少为条目长度的一半时,匹配成功。由于虚假匹配的高可能性,对于除Person之外的所有类别,我们丢弃长度小于2个标记的部分匹配。当同一类别中有多个重叠匹配时,我们更喜欢精确匹配而不是部分匹配,然后是长匹配而不是短匹配,最后是句子中的较早匹配而不是之后的匹配。所有匹配项都不区分大小写。
在这里插入图片描述
对于匹配中的每个标记,特征以BIOES注释(Begin, Inside,
Outside, End, Single)编码,指示标记在匹配条目中的位置。换言之,B不会出现在仅后缀部分匹配中,E也不会出现在仅前缀部分匹配中。
正如我们将在第4.5节中看到的,我们发现这种更复杂的方法优于Collobert等人提出的方法。这种方法将部分匹配和精确匹配同等对待,允许前缀而不是后缀匹配,允许非常短的部分匹配,并用YES/NO标记令牌。

此外,自Collobert等人用他们的SENNA系统发布他们的词典,我们也将他们的词典应用到我们的模型中进行比较,同时使用两个词典作为不同的特征进行调查。我们发现,这两个词汇互补,提高性能的COLLL - 2003数据集。

我们最好的模型,是使用精确匹配的SENNA词典和我们的部分匹配的DbPeDa词典,并在这两种情况下都带有Bioes注释。

2.5附加字符级功能

一个用于输出一个四维向量的查找表,四维向量表示四个类型(大写、小写、标点、其他)。

2.6培训和推理

2.6.1实施

我们使用torch7库实现了神经网络。在每个句子层进行训练和推理。LSTM的初始状态是零向量。除了前面已经描述过初始化的字符和字嵌入之外,所有查找表都是随机初始化的,值取自标准正态分布。

2.6.2目标函数与推理

我们从CalbBet中训练我们的网络以最大化句子的对数似然。

首先,我们定义了一个标记转换矩阵A,其中Ai,j 表示连续标记中从标记A跳到标记B的分数,A0,i 表示从标记i开始的分数。该参数矩阵同样已经学习了。定义 θ为神经网络的参数集,并且θ’= θ ∪ {Ai,j ∀i, j} a表示已经被训练的参数集。举一个句子:

长度为T,并将 [fθ]i,t定义为:给出参数θ, [fθ]i,t是神经网络输出的对应的第t个单词和第i个标记,

然后将以一系列在这里插入图片描述标记的得分作为网络和转换得分的总和:
在这里插入图片描述
然后,假设在这里插入图片描述是真正的标记序列,通过使用softmax规范化上述所有可能获得的标记序列的分数,可以得到句子级的对数似然。
在这里插入图片描述
动态规划可以有效地计算目标函数及其梯度(Collobert等人,2011b)。

在推理时,给定的神经网络输出[fθ]i,t,我们使用维特比算法来找到最大化分数的标签序列在这里插入图片描述

2.6.3标记方案

输出标签用BIOES注释(Begin, Inside, Outside, End,Single, 表示在实体中的位置),因为据报道,该方案的表现优于BIO。

2.6.4学习算法

训练采用固定学习率的小批量随机梯度下降(SGD)方法。每个小批量由多个具有相同标记数的句子组成。我们发现,对每个LSTM层的输出节点应用dropout在减少过度拟合方面非常有效。我们探索了其他更复杂的优化算法,如momentum、ADADLTA 和 RMSProp,在初步实验中,它们没有改进普通的SGD。

3评估

对已建立的CoNLL-2003 NER共享任务数据集和更大但研究较少的OntoNotes 5.0数据集进行性能评估。表2概述了这两个不同的数据集。
在这里插入图片描述
对于每个实验,我们报告了10个成功实验的平均值和标准差。

3.1数据集预处理

对于所有数据集,我们执行了以下预处理:
•所有数字序列替换为单个“0”。
•在训练之前,我们将句子按字长分组成小批量,然后洗牌。
此外,对于ontonnotes数据集,为了处理日期、时间、金钱、百分比、数量、序数和基数命名实体标记,我们将每个数字之前和之后分割标记。

3.2CoNLL 2003数据集

CoNLL-2003数据集由ReutersRCV1语料库中的newswire组成,标注了四种命名实体:地点、组织名、人名和杂项。由于数据集比ontonnotes小,因此在对开发集进行超参数优化后,我们才在训练集和开发集上对模型进行训练。

3.3OntoNotes 5.0数据集

Pradhan等人为CoNLL-2012共享任务编译了OntoNotes 5.0数据集的核心部分,并描述了一个标准的train/dev/test分割,我们使用它进行评估。在Durrett和Klein(2014)之后,我们将我们的模型应用于数据集中带有黄金标准命名实体注释的部分;新约部分由于缺少黄金标准注释而被排除在外。这个数据集比CoNLL-2003大得多,由来自各种来源的文本组成,如广播会话、广播新闻、新闻专线、杂志、电话会话和Web文本。

3.4 超参数优化

我们进行了两轮超参数优化,并根据开发集性能选择了最佳设置[23]。表3显示了最终的超参数,表4显示了每轮中最佳模型的开发集性能。
在这里插入图片描述
在这里插入图片描述
在第一轮中,我们对CoNLL-2003数据进行了随机搜索,选择了最优的超参数。我们评估了大约500个超参数设置。然后,我们采用相同的设置,并在ontonnotes开发集上调整学习速率和时间段。[24]

对于第二轮,我们使用Optunity的粒子群实现对每个数据集执行独立的超参数搜索,因为有证据表明它比随机搜索更有效这一轮我们还评估了500个超参数设置。后来我们发现训练偶尔会失败(第3.5节),而且每次运行都会有很大的变化,我们从每个数据集中运行前5个设置,每个设置10次测试,并根据平均开发集性能选择最佳设置。

对于CoNLL-2003,我们发现粒子群产生了比随机搜索更好的超参数。然而,令人惊讶的是,对于ontonnotes,粒子群无法产生比第一轮中的自组织方法更好的超参数。我们还尝试从第2轮的ontonnotes中调整CoNLL-2003超参数,这也没有任何改善[25]。

我们训练了大量的CoNLL-2003模型,因为我们观察到模型没有表现出过度训练,而是在训练集上达到接近100%的准确率之后,在开发集上继续缓慢地改进。相比之下,尽管ontonnotes比CoNLL-2003大得多,但超过18层的训练会导致开发集的性能由于过度拟合而稳步下降。

3.5不包括失败的试验

在CoNLL-2003数据集上,当BLSTM模型毫无困难地完成训时,BLSTMCNN模型无法在5∼10%的时间内收敛,这取决于特征集。同样,在OntoNotes上,1.5%的测试失败。我们发现使用较低的学习率可以降低失败率。我们还尝试了裁剪t梯度和使用AdaDelta,这两种方法都能有效地消除这些失败。然而,AdaDelta却使训练变得更加昂贵,而且在模型性能上没有任何提高。

无论如何,在所有的实验中,我们排除了训练数据子集的最终F1分数低于某个阈值的试验,并继续进行试验,直到我们获得10个成功的试验。

对于CoNLL-2003,我们排除了开发集的最终F1得分小于95的试验;由于每个试验的得分都高于98或低于90,所以在选择阈值时没有歧义。对于ontonnotes,门槛是在训练集的最后5000句话中,F1的分数为80分;每个测试的分数要么高于80分,要么低于75分。

3.6训练和标记速度

在Intel Xeon E5-2697处理器上,训练大约需要6小时,而标记测试集对于CoNLL-2003大约需要12秒。ontonnotes的时间分别为10小时和60秒。

4 结果和讨论

表5显示了所有数据集的结果。据我们所知,我们最好的模型已经超过了CoNLL-2003和OntoNotes上先前报告的最高的F1分数。特别是,由于除了词嵌入之外没有其他外部知识,我们的模型在CoNLL2003数据集上具有竞争力,并且为ontonnotes建立了一个新的技术状态,这意味着在给定足够的数据的情况下,神经网络不需要特征工程就可以自动地学习NER的相关特征。
在这里插入图片描述

4.1与FFNNs的比较

我们重新实现了Collobert等人的FFNN模型。(2011b)作为比较基准。表5显示,虽然在CoNLL-2003上表现相当好,但FFNNs显然不适合具有更大领域的ontonnotes,这表明LSTM模型对于NER是必不可少的。

4.2字符级CNN VS. 字符类型和大写特征

表6中模型的比较表明,在CoNLL-2003上,当给定相同的特征集时,BLSTM-CNN模型显著地优于BLSTM模型[26]。当添加大写特征时,这种影响较小且在ontonnotes上不具有统计意义。向BLSTM-CNN模型中添加字符类型和大写特征降低了CoNLL的性能,并且主要提高了OntONOTES的性能,这表明字符级CNNs在某些情况下可以代替手工制作的字符特征,但是具有弱词典的系统可能受益于字符特征。
在这里插入图片描述

4.3单词嵌入

表5和表7显示,与随机嵌入相比,无论使用了什么附加特性,我们在使用经过训练的词嵌入时都获得了显著的改进。这与Collobert等人的结果一致。
在这里插入图片描述

表7比较了表5中最佳模型(BLSTM-CNN+emb+lex)中不同单词嵌入的性能。对于CoNLL-2003,公开提供的GloVe和Google嵌入大约比Collobert的嵌入落后一点。对于ontonnotes,globe嵌入的性能接近Collobert嵌入,而Google嵌入又落后了一点。此外,300维的嵌入比50维的嵌入没有明显的改善——这是Turian等人之前报告的结果。

Collobert嵌入比CoNLL-2003上的其他公共可用嵌入性能更好的一个可能原因是,它们在Reuters RCV-1语料库(CoNLL-2003数据集的来源)上接受了训练,而其他嵌入则不是。另一方面,我们怀疑Google的嵌入由于词汇不匹配而表现不佳,特别是Google的嵌入是以区分大小写的方式训练的,并且没有提供许多常见标点和符号的嵌入。为了验证这些假设,我们对使用GloVe和word2vec训练的新词嵌入进行了实验,词汇表和语料库与Collobert等人相似。如表7所示,我们的GloVe嵌入比CoNLL-2003上的公开嵌入有了显著的改进,我们的word2vec skip-gram嵌入比Google在ontonnotes上的嵌入有了显著的改进。

由于时间限制,我们没有对任何单词嵌入执行新的超参数搜索。由于单词嵌入质量取决于训练期间的超参数选择(Pennington等人,2014),而且在我们的NER神经网络中,超参数选择可能对所使用的单词嵌入类型敏感,优化它们都可能产生更好的结果,并提供更公平的单词嵌入质量比较。

4.4辍学的影响

表8比较了每个数据集的各种辍学值的结果。模型只使用每个数据集的训练集进行训练,以隔离退出对开发和测试集的影响。所有其他超参数和特性与表5中的最佳模型保持一致。无论是在数据集上,还是在开发和测试集上,辍学对于最先进的性能都是必不可少的,而且这种改进在统计学上是显著的。如第3.4节所述,Dropout在dev集上进行了优化。因此,被选中的值可能不是表8中的最佳性能。

在这里插入图片描述

4.5词汇特征

表6显示,在CONLL - 2003数据集上,使用来自SENA词典和我们所提出的DbPEDIa词典的特征提供了显著的改进,并且允许我们的模型明显超越先前的技术状态。

不幸的是,差异是微不足道的OntONOTES,最有可能是因为我们的词典不匹配DPPEDAI类别。图5显示了在CONLL—2003上,词典覆盖率是合理的,并且匹配了除CATCHALL MISC类别之外的所有设置的标签。例如,词汇匹配中的LOC条目主要是LOC命名实体,反之亦然。然而,在OntONOTES中,匹配是有噪声的,词汇匹配和标签类别之间的对应关系是相当模糊的。例如,所有的词汇类别都在不相关的命名实体(如基数、LOC、GPE和语言实体)中进行虚假匹配,这些都从词汇表中的LOC类别中得到很多匹配。此外,在诸如NORP、ORG、LAW、PRODUCT等类别中的命名实体很少得到覆盖。较低的覆盖率、噪音和模糊度都导致了令人失望的性能。这意味着词汇词典的构建方法有待改进。一个合理的起点是DBpedia类别到ontonnotes的NE标记映射。
在这里插入图片描述
为了隔离每个词典和匹配方法的贡献,我们比较不同的源和匹配方法在BLST-CNN模型与随机初始化字嵌入和没有其他特征或来源的外部知识。结果如表9所示。在这个弱化的模型中,两个词典都对基线有显著的(33)改进。在这里插入图片描述

与SENNA词典相比,我们的DbPEDIa词汇更为噪音更大,但覆盖范围更广,这也解释了为什么使用Calbt等的方法来应用它。它在CoNLL-2003上表现更差,但在ontonnotes上表现更好,ontonnotes是一个包含许多更模糊命名实体的数据集。但是,我们怀疑Collobert等人的方法不具有抗噪声性,因此不适合我们的词典,因为它不能区分精确匹配和部分匹配,并且没有为部分匹配设置最小长度。当我们将我们的优势部分匹配算法和BIPEES编码与我们的DbPeDa词典相结合时,我们获得了显著的改进,允许我们的词典也同样适用于SENNA词典。不幸的是,由于我们不能可靠地从SENNA词典删除部分词条,我们无法调查我们的词典匹配方法是否会有助于该词典.

此外,在CONLL—2003上使用两个词典作为不同的特征提供了进一步的改进.,我们怀疑是因为词典是互补的;SENNA词典是相对干净且为新闻专线量身定制,而DbPeDa词汇更嘈杂,但具有高覆盖率。

4.6 OntoNotes性能分析

表10显示了ontonnotes结果的每种类型的细分。正如预期的那样,我们的模型在干净的文本(如广播新闻(BN)和新闻专线(NW))上表现最好,在嘈杂的文本(如电话交谈(TC)和网络文本(WB))上表现最差。我们的模型也大大改进了以往关于所有流派的研究,除了TC,在TC中,小规模的训练数据可能会阻碍学习。最后,我们模型的性能特征似乎与以前的CRF模型(Finkel和Manning,2009;Durrett和Klein,2014)有很大不同,可能是因为我们采用了完全不同的机器学习方法。
在这里插入图片描述

5 相关研究

命名实体识别是一项历史悠久的任务。在这一节中,我们总结了我们比较过的作品以及影响我们的方法的作品。

5.1命名实体识别

最新的神经网络方法的特点是使用CRF、支持向量机和感知器模型,其中性能严重依赖于特征工程。Ratinov和Roth使用了非本地特征,一个选自Wikipedia和Brown的类词表示,在CoNLL2003上获得了90.80的F1分数。Lin和Wu在没有使用地名索引的情况下超越了他们,而是使用了通过在搜索引擎查询日志的私有数据库上执行k-means聚类而获得的短语特征。帕索斯等人在 lexicon-infused skip-gram模型中,只使用公共数据通过训练短语向量获得几乎相同的性能。为了解决特征稀疏的问题,Suzuki等人使用大规模未标记数据进行特征约简,并在CoNLL-2003上获得91.02的F1分数,这是无外部知识系统的当前技术水平。

最近,训练一个内质网系统以及相关的任务,例如实体链接,已经被证明可以提高技术水平。Durrett和Klein将共指消解、实体链接和内质网结合到一个单一的CRF模型中,并添加了跨任务交互因素。他们的系统在ontonnotes数据集上取得了最新的结果,但是由于缺少引用注释,他们没有在CoNLL-2003数据集上进行评估。罗等人。(2015年)通过培训NER和实体链接任务的联合模型,在CoNLL2003上取得了最新的成果,这对任务的相互依赖性对Durrett和Klein的工作贡献最大(2014年)。

5.2具有神经网络的净入学率

虽然许多方法涉及CRF模型,但涉及神经网络的研究也有很长的历史。早期的尝试受到了缺乏计算能力、可扩展的学习算法和高质量的单词嵌入的阻碍。

Petasis等人(2000)使用了一个在NER上有一个隐藏层的前馈神经网络,并在MUC6数据集上取得了最新的结果。他们的方法只对每个单词使用POS标记和地名索引标记,没有单词嵌入。

Hammerton(2003)尝试使用单向LSTM网络和使用自组织映射训练的词向量和使用主成分分析获得的上下文向量的组合来进行NER。然而,当我们的方法优化对数似然性并使用softmax时,他们使用了不同的输出编码并优化了未指定的目标函数。Hammerton报告的结果仅略高于基线模型。

很久以后,随着神经单词嵌入的出现,Collobert等人(2011b)介绍了SENNA,它采用了深度FFNN和单词嵌入,在词性标注、组块、NER和SRL方面取得了接近最新水平的结果。我们基于它们的方法,共享单词嵌入、特征编码方法和目标函数。

最近,Santos等人(2015)提出了他们的CharWNN网络,它增强了Collobert等人的神经网络(2011b)使用字符级CNN,他们报告在西班牙语和葡萄牙语NER上的性能有所提高。我们已经成功地将字符级cnn合并到我们的模型中。

对于各种顺序标记NLP任务,已经提出了各种其他类似的体系结构。Huang等人(2015)使用BLSTM进行POS标记、分块和NER任务,但他们使用了大量的特征工程,而不是使用CNN自动提取字符级特征。Labeau等人(2015)使用具有字符级CNN的BRNN来执行德语词性标注;我们的模型不同之处在于,我们使用了更强大的LSTM单元,我们发现在初步实验中,LSTM单元的性能优于RNN,并且我们使用了单词嵌入,这在NER中比在词性标注中重要得多。Ling等人(2015)使用单词和字符级别的BLSTMs来建立英语词性标注的最新技术。虽然使用BLSTMs而不是CNNs可以提取更复杂的字符级特征,但我们在初步实验中发现,对于NER来说,它的性能并没有明显优于CNNs,而且训练的计算成本也大大提高。

6 结论

我们的神经网络模型融合了双向LSTM和字符级CNN,并从鲁棒训练中获益,在命名实体识别方面取得了最新的成果,而特征工程很少。我们的模型在两个主要的NER数据集上比以前最好的报告结果有所改进,这表明该模型能够从大量的数据中学习复杂的关系。

我们的部分匹配词典算法的初步评价表明,性能可以进一步提高,通过更灵活的应用现有的词典。现有单词嵌入的评估表明训练数据的域与训练算法一样重要。

词典和单词嵌入的更有效的构建和应用是需要更多研究的领域。在将来,我们还希望扩展我们的模型来执行类似的任务,比如扩展标记集NER和实体链接。

  • 3
    点赞
  • 0
    评论
  • 12
    收藏
  • 打赏
    打赏
  • 扫一扫,分享海报

参与评论
请先登录 后发表评论~
©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页

打赏作者

旺旺吃雪饼

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值