NER[1] - 文章解读：Recent Trends in Named Entity Recognition (NER)

最新推荐文章于 2024-09-12 10:57:32 发布

ZhuNian的学习乐园

最新推荐文章于 2024-09-12 10:57:32 发布

阅读量813

点赞数

分类专栏： NLP 文章标签： nlp

本文链接：https://blog.csdn.net/qq_41709378/article/details/117981784

版权

NLP 专栏收录该内容

14 篇文章

订阅专栏

本文综述了近年来深度学习在命名实体识别(NER)领域的进展。从线性方法到深度学习框架的发展过程中，探讨了神经网络模型在NER任务中的应用，包括卷积神经网络、递归神经网络等。此外，还讨论了输入特征工程的重要性，如单词嵌入、字符嵌入等地，以及这些技术如何提升NER系统的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是翻译一篇NER综述原文：Recent Trends in Named Entity Recognition (NER)

Abstract

大量计算机可读的文本数据和能够处理这些数据的硬件的可用性已经将知识项目的重点转向深度学习体系结构。自然语言处理，特别是命名实体识别的任务也不例外。产生最新结果的大部分学习方法已经改变了深度学习模型、所用的训练方法、训练数据本身或NER系统输出的编码。在这篇论文中，我们回顾了近年来被用于网络学习的重要学习方法，以及它们是如何从过去的线性学习方法发展而来的。我们还涵盖了与NER相关的上游或下游任务的进度，如序列标记、实体链接等，只要有问题的过程也改善了NER结果。

1. Introduction

命名实体识别是指从文本中识别重要对象（如人、组织、位置）的自然语言处理任务。从今往后，我们将使用NER来表示命名实体的识别和分类。NER属于NLP中的一类一般问题，称为序列标记（Erdogan，2010）。序列标记非自然语言处理任务是词性标记和组块(POS)。本文综述了国内外的最新研究成果。但是，所提到的许多研究涉及序列标记任务，而不是NER。因此，我们认为上述研究是一个全面的调查序列标签的重点。此外，我们还尽可能展示了2006年以后的研究，因为在过去的十年中，线性或对数线性方法（Nadeau和Sekine，2007）已经转变为非线性方法。据我们所知，从2006年起，NER的预处理、培训和评估方法还没有得到广泛的调查。

调查的第一部分简要介绍了从线性技术到深度学习框架的演变，即每个框架在培训方面的优缺点，以及在不同领域、语言和应用程序中的表现。我们涵盖了来自主要会议和期刊的大约150篇被广泛引用的英文论文。我们并不认为这篇综述是详尽的，也不代表所有语言的所有研究，但我们相信它对该领域的主要研究结果给出了一个很好的估计。

第2节、第3节和第4节详细介绍了在神经网络模型的不同阶段产生最新结果的计算技术。特别是，第2节涵盖了输入端的特征工程，即语法、形态和语义和上下文特征。此外，第2节展示了文本的不同分布式表示模型对NER任务的影响。还讨论了使用的结构化和非结构化数据，以及显示最新结果的附加预处理步骤。第三节讨论了神经网络的模型结构，包括卷积神经网络、递归神经网络和递归神经网络。第3节还展示了优化方法、输出标签结构和评估方法及其对特定技术性能的影响。第4节总结了所讨论的技术在标准数据集上的性能，这些数据集用于基准NER性能。

2. A Brief History

近30年来，研究人员已经开发出一套不同的技术来解决NER任务(Rau，1991）解决了我们目前所知的NER任务的一部分。然而，以前在信息提取方面的研究，包括以一种比目前形式更受约束的方式进行命名实体识别（Besemer和Jacobs，1987；德容等人，1979年；代尔和泽尼克，1986年；Grishman和Kittredge，2014年；霍布斯，1986年；Lytinen和Gershman，1986？；Young和Hayes，1985年）。最初的NER研究包括手工制作的基于规则的线性模型，这些模型被过度拟合到非常特定的结构化文本语料库中，如军事信息集、海军作战报告、并购新闻（Jacobs和Rau，1993）等。标准化的需要导致MUC-6（Grishman和Sundheim，1996）、HUB-4（Chinchor等人，1998），MUC-7和MET-2（Chinchor和Robinson，1997），IREX（Sekine和Isahara，2000），CONLL（Sang和De Meulder，2003），ACE（Doddington等人，2004）和HAREM（Santos等人，2006）。自2000年以来，语言资源与评价会议（LREC）1还举办了关于这一主题的研讨会和主要会议轨道。在一个大型注释语料库上训练的监督学习技术为NER提供了最先进的结果。著名的监督学习方法包括隐马尔可夫模型（HMM）（Bikel et al.，1997）、决策树（Sekine et al.，1998）、最大熵模型（ME）（Borthwick et al.，1998）、支持向量机（SVM）（Asahara and Matsumoto，2003）、条件随机场（CRF）（Lafferty et al.，2001）；McCallum和Li，2003年）。特别是CRF是最有效的NER算法之一。由于NER需要使用许多前导和滞后的非局部序列来训练输出标签的概率，使得CRF这样的判别模型比HMM和随机文法这样的生成模型更适合。虽然ME模型放松了生成模型所作的强独立性假设，但它们存在一个称为标签偏差问题的弱点，即模型偏向于具有很少传出跃迁的状态。CRF通过联合考虑所有状态中不同特征的权重来解决问题，而不是在状态水平上归一化转移概率(Sarawagi和Cohen，2004）在现有CRF模型的基础上进行了改进，提出了半连续函数模型，该模型将标签分配给子序列，而不是单个实体，没有任何额外的计算复杂性(Passos等人，2014年）使用他们的词典使用跳过gram模型对公共数据学习高质量的短语向量，以插入对数线性CRF系统。实体分析的联合模型（多任务模型）在单个任务上显示出比仅为NER优化的模型更好的结果(Durrett和Klein，2014）开发了一个结构化的CRF模型，通过对3项任务的培训（例如：共指分解（在文档聚类中）、命名实体识别（粗略的语义类型）和实体链接（与维基百科内容匹配）。)（Luo et al.，2015）提出了JERL（联合实体识别和链接）模型，即扩展的半CRF模型，以捕获NER和实体链接之间的依赖关系。监督学习方法遇到了一个障碍，因为有一个有限的结构化文本可用于学习区别性特征。这导致了半监督学习方法，即利用成倍增长的非结构化文本（即网页）从种子注释语料库（即自举）中以无监督的方式获取上下文信息（Nadeau等人，2006；布林，1998年；柯林斯和辛格，1999年；Yangarber等人，2002年；Riloff等人，1999年；Cucchiarelli和Velardi，2001年；Pasca等人，2006年）(Suzuki等人，2011）提出了一种无监督方法，从大规模未标记数据中创建资源丰富的压缩特征表示，以有效地训练有监督的NER系统，同时保持现有高维半监督解决方案的最新结果。

无监督学习方法主要是作为从输入词的上下文中生成附加特征的手段出现的，以便与其他非监督学习方法结合使用（Evans和Street，2003；西米亚诺和V¨ 奥尔克，2005年；Shinyama和Sekine，2004年；Etzioni等人，2005年）。最近，（Lin和Wu，2009）通过在搜索引擎查询日志的私有数据库上执行k-means聚类来使用聚类特征来训练其CRF模型，从而在不使用地名索引的情况下获得了最新的结果。无监督学习技术的行业应用的一个例外是使用词汇资源的聚类方法，例如Wordnet（Alfonseca和Manandhar，2002），以便从Wordnet本身（location）分配命名实体类型¿国家，行动¿人等）。尽管CRF被广泛采用，但已有许多关于利用神经网络进行神经网络学习的论文。（Ratinov和Roth，2009）在感知机模型中使用了非局部特征、摘自维基百科的地名索引和棕色聚类词表示（Freund和Schapire，1999）。由于多层前馈神经网络是一种通用的逼近器，这种神经网络也有可能解决这一问题(Petasis等人，2000）在NER上使用了一个具有一个隐层的前馈神经网络，并在MUC6数据集上获得了最新的结果。他们使用地名录和词性标签作为输入特征。（Mikolov等人，2013a）介绍了使用skip-gram模型或连续词袋（CBOW）模型创建行为良好且简洁的词向量表示的实践，即词嵌入，位于神经网络模型的上游(Collobert和Weston，2008）演示了如何使用预先训练好的单词嵌入来训练深层神经网络，从而在多个NLP任务（包括NER）中获得最先进的结果，而不需要任何额外的句法特征。我们在第3节（Collobert et al.，2011）中进一步详细讨论了单词嵌入，介绍了SENNA，它采用了深度FFNN和单词嵌入，在其他NLP序列标记任务中，在NER上实现了接近最新水平的结果(Santos等人，2006年）提出了他们的CharWNN网络，该网络用字符级CNN扩展了（Collobert等人，2011年）的神经网络，并报告了西班牙语和葡萄牙语NER的性能改进(Hammerton，2003）尝试使用单向LSTM网络和使用自组织映射训练的单词向量组合来进行词汇表示，并使用主成分分析来进行POS和块标记的正交表示(Huang et al.，2015）使用了具有广泛特征工程的BLSTM，而不是字符嵌入来完成postaging、chunking和NER任务(Chiu和Nichols，2015）使用LSTM-CNN模型检测字符级和单词级特征，而无需对NER进行额外的特征工程。他们的模型类似于（Labeau et al.，2015）为德语词性标注引入的RNN CNNs模型，但与RNN相比使用了高级LSTM组件(Lample et al.，2016）展示了一个BLSTM-CRF模型和一个堆栈LSTM模型（s-LSTM）（Dyer et al.，2015），通过使用一个简单的CRF模型或一个转换模型来创建和标记输入文本块来建模输出标记依赖性，从而执行NER任务。Like（Lample et al.，2016），（Yang et al.，2016）也使用了类似于（Ling et al.，2015）的字符级嵌入(Yang等人，2016）也使用深层层次RNN（Cho等人，2014）进行序列标记。

3. Features and Data

在本节中，我们将研究NER模型的输入。主要输入是训练数据。为了衡量净收益率的表现，研究人员在CoNLL-2002和CoNLL-2003数据集上运行了他们的模型（Sang，2002；Sang和De Meulder，2003），其中包含英语、西班牙语、德语和荷兰语的独立命名实体标签。所有数据集都包含四种不同类型的命名实体：位置、人员、组织和其他实体(这个实体不属于前面三个类别中的任何一个)。杂项类别是非常多样的，因为它包括形容词，如印度的，以及事件，如1000湖泊拉力赛。在CONLL - 2003数据集中，命名实体标注英语和德语的培训、开发和测试数据，是由安特卫普大学手工完成的。几乎所有的研究都验证了一个假设，即当有外部数据时，NER系统表现更好。NER系统使用的外部知识是地名索引和未标记文本。

3.1 Unlabelled Text

最近成功的半监督系统（Ando和Zhang，2005；Suzuki和Isozaki，2008）已经说明了未标记的文本可以用来提高NER系统的性能(Ratinov和Roth，2009）使用（Liang，2005）中的词类模型（Brown et al.，1992）的实现从Reuters 1996数据集（CoNLL03-NER数据集的超集）获得词簇(Ratinov和Roth，2009）根据单词类算法生成的二叉树根路径，为每个单词生成唯一的位字符串。他们将输入特征乘以4乘以每个单词长度为4、6、10和20的路径表示。

（Qi等人，2009）提出了一个迭代词类分布学习框架，并将其应用于一组维基百科网页样本。与自我训练（如bootstrapping）或联合训练方法相比，WCDL没有添加自我分配的标签，如果模型在语料库中引入错误的标签示例，那么这些标签可能会受到学习偏差的影响。WCDL迭代地重新训练一个基本分类器，通过对未标记语料库的预测标签进行归一化，为每个单词建立一个类标签分布。词类分布成为基本分类器（半监督或监督NER系统）的一个特征，而不是添加许多自注释，从而使WCDL具有高度的可伸缩性。

3.2 Gazeteers

网络词典研究中的一个重要问题是如何利用词典即词表来解决输入词的覆盖和消歧问题。有充分的证据表明，通过使用高质量和高覆盖率的地名录，净入学率有所提高（Cohen和Sarawagi，2004年；Torisawa等人，2007年；托拉尔和穆诺兹，2006年；Florian等人，2003年）。维基百科是一个伟大的来源，以建立地名录的NER有几个原因
(1）它定期手动更新，因此丢失新信息的可能性较小
(2）它将拼写或意义的几种变体映射到相关条目。例如，“曼彻斯特”不仅指英国的曼彻斯特城，还指足球俱乐部的类似名称
(3）维基百科条目被手动映射到类别。例如，关于曼彻斯特城的条目被标记为城市，而曼彻斯特城F.C.被标记为足球协会。

表4 总结了注入外部知识的技术的结果。尽管附加功能来自CoNLL03数据集的超集，而地名录则来自维基百科，但事实证明，这些附加功能对所有数据集都很有用。为了使聚类更加贴近这个领域，我们采取了以下策略：
（1）利用web数据构造2000万个短语的特征向量
（2）运行K-Means聚类对CoNLL训练数据中出现的短语进行聚类以获得K个质心
（3）将2000万个短语中的每一个指定给上一步中最近的质心。
在这里插入图片描述
这里，s表示输入序列中的位置； $y_s$ 为一个标签，指示位置s处的令牌是否是命名实体及其类型； $w_u$ 是位于u位置的单词；sfx3是一个单词的三个字母的后缀。 $wtp^{t^4}t=1$ 是不同词类的指标；t=1表示标点符号，2表示一个单词是大写、小写还是全大写，3表示数字，4表示该单词在标记前后有不同大写的连字符。包括单字特征（以获取完整实体的缩写或部分形式），（Lin和Wu，2009）有48个特征。

3.3 Word Embeddings

使用预先训练好的单词嵌入已经成为包括NER在内的NLP任务的标准特性(Collobert等人，2011）提出了一种构建单词嵌入的神经网络架构，它形成了获得单词向量表示的主要方法，用于为NER训练深度学习NLP模型。单词嵌入是由（Mikolov et al.，2013a）率先提出的，他引入了连续单词包和skip-gram模型来构建单词的高粒度向量表示。Glove-by（Pennington等，2014）是另一种著名的基于词共现的词嵌入方法。通过归一化和平滑后的重建损失最小化，将频率矩阵分解为较低的维数。创建单词嵌入的方法（Mikolov et al.，2013a）被广泛采用，因为这种向量表示显示了组合性。组合性对应于线性语义推理的性质，如“巴黎”-“法国”+“意大利”=“罗马”。

CBOW和连续skip-gram都是对数线性语言模型，但它们在本质上有所不同。CBOW根据上下文预测目标词。然而，skip-gram模型在给定的窗口内预测目标词前后的词。作为向量表示上下文的相邻词窗口是一个需要优化的超参数。增加窗口可以提高语言模型的准确性，但同时也会增加窗口中远词分解的计算复杂度。Mikolov等人（2013a）提出的新对数线性模型的一个主要优点是，它们消除了前馈神经网络语言模型中的隐藏层，从而减少了语言模型的计算瓶颈，即优化的单机实现可以在一天内训练超过1000亿字(Mikolov等人，2013b）进一步扩展了原始Skip-gram模型，以实现更快的训练和更高质量的单词表示。他们引入了一种简单的子抽样方法，以加快训练过程，同时确保更准确的结果不常用词的表示。子抽样方案是用公式计算出的概率丢弃训练集中的每个单词wi
在这里插入图片描述
是单词的频率，wi和t是所选的频率阈值（通常为10−5）上面的词是亚抽样显着。此外，他们在输出层用两种方法代替了计算效率低下的softmax方法：1）分层softmax（全softmax的近似值）和2）噪声对比估计（NCE）。阴性取样或NCE是由（Gutmann和Hyv）引入的ärinen，2012），并应用于语言建模（Mnih和Teh，2012）.

将单词embeddings扩展到短语embeddings是有警告的，即足球俱乐部“曼城”与单词“曼彻斯特”和“城市”的组合在含义上是不同的。在对数线性语言模型的训练中，Mikolov将短语作为单独的标记。其他方法（Johnson和Zhang，2015）已经从未标记数据中获得了n-gram表示。固定词嵌入的另一个问题是它不能解释一词多义，即一个词可以在两个不同的上下文中由两个不同的向量表示。传统的单词嵌入方法，如Word2Vec和Glove，会考虑单词所在的所有句子，以创建一个全局向量表示法。然而，一个词在上下文中可能有完全不同的意义。例如，让我们考虑一下这两句话——1）“周末喜欢读小说”2“科学家发现了一种治疗癌症的新方法”。这两句话中“小说”的词义因语境的不同而不同。传统的单词嵌入方法，如word2vec和glove，在两种上下文中提供了相同的“小说”表示(Upadhyay等人，2017）使用多语言数据为多义词嵌入增加了另一个维度。例如，英语单词bank翻译成法语时提供了两个不同的单词：banc和banque，分别代表金融和地理意义。

3.4 Character Embeddings

字符级嵌入在NER中被用来捕获跨语言的形态特征。在某些自然语言处理任务中，形态学丰富的语言有更好的结果(Santos和Guimaraes，2015）应用了字符级表示，以及NER的单词嵌入，在葡萄牙语和西班牙语语料库中实现了最先进的结果(Kim等人（2016）在仅使用字符嵌入构建神经语言模型方面取得了积极成果(Ma et al.，2016）利用了几种嵌入，包括字符三角图，将原型和层次信息结合起来，用于在NER环境中学习预训练标签嵌入。汉语是另一种形态丰富的语言，在深度学习序列标记模型中，字符嵌入比单词嵌入表现更好（Zheng et al.，2013）。

单词嵌入并不传递字符嵌入所提供的语义和其他内部信息。因此，字符嵌入能够通过将未知单词的意义映射到合成字符或子单词的意义来推断未知单词的意义。因此，字符嵌入解决了识别词汇表外（OOV）单词的问题，例如词性标注和语言建模（Ling et al.，2015）或依存分析（Ballesteros et al.，2015）等任务的输入语料库中不存在的单词。字符嵌入为表示单词类型提供了一种可行的方法。字符嵌入已经得到了广泛的应用，因为它们通过严格使用单词表示避免了为解决OOV问题而引入的额外维度。Chen等人（2015）的研究表明，将字符嵌入引入到汉语的单词嵌入中，可以获得更为准确的单词表示，例如，在单词关联性和类比推理任务中获得更好的结果。字符嵌入还具有与任务、语言和领域相关的优势（Vosoughi等人，2016；萨克斯和柏林，2017）。Bojanowski et al.（2017）尝试通过将单词表示为字符包n-grams来改进流行的skip-gram方法。因此，他们的工作通过有效的skip-gram模型解决了单词嵌入的局限性。他们的fastText库（Joulin et al.，2016，2017）在不影响准确性或速度的前提下，在100kB内生成文本分类模型。从字符中派生单词嵌入所涉及的典型体系结构初始化了一个字符查找表，其中每个字符都是随机表示的。然后，序列中每个字符的字符嵌入都通过前向和后向LSTMs。然后，biLSTM中的字符表示与单词查找表中的单词表示连接起来。向前的LSTM表示单词的后缀，而向后的LSTM表示单词的前缀。LSTM网络比传统RNN更好地模拟了时间序列中的长期依赖性（Sak等人，2014）。然而，LSTM网络并不像biLSTMs那样捕捉单词前缀和后缀之间的语义差异。卷积神经网络也被用来从单词中发现字符的位置不变特征。有效的词汇选择进一步解决了非合成词、未知词或歧义字符的问题。

除了字符嵌入外，还提出了不同的OOV处理方法(Herbelot和Baroni，2017）通过将未知单词初始化为上下文单词的贪婪组合，并以高学习率精炼这些单词，提供了增量概念学习的一个重要组成部分。然而，他们的方法还需要在典型的自然语言处理任务中进行测试，在这些任务中，上下文的处理需要进行调制。Pinter等人（2017）提供了一个基于字符的模型，该模型不需要从原始语料库中重新训练字符嵌入，从而节省了处理时间。这使他们能够学习从字符到单词的组合映射嵌入，从而有效地解决OOV问题。

尽管分布向量越来越流行，但这些向量也有局限性。例如，（Lucy和Gauthier，2017）最近试图评估单词向量预测不同概念的感知和概念特征，使用人类参与者创建的语义规范数据集作为基准。作者发现了分布模型在基本理解词语背后的概念时的严重局限性。缓解这些缺陷的一个可能方向是扎根学习（Niekum等人，2013）。

3.5 Model Specification

3.5.1 Convolutional Neural Networks

CNN发现使用反向传播学习的查找表从单词中提取特征向量表示（Collobert et al.，2011）。因此，在可变长度的输入序列中，CNNs似乎是从单个单词中提取高阶特征的自然选择。有两种方法：
（1）窗口法。
（2）卷积句法。
窗口方法假设分配给单个单词的标记取决于其上下文（即出现在给定单词之前和之后的单词）。窗口方法更适合于像NER这样的序列标记任务。

在这里插入图片描述
这里 Wl∈ Rnl h公司×荷兰−1h和bl∈ 使用反向传递被训练。这里 $n_h^l$ 是一个超参数，它表示 $l^{th}$ 层中隐藏的单元数。如图中所示，固定大小的向量输入可以通过多个线性变换层。为了从输入序列中获取高阶特征，存在“硬”双曲正切函数层。与精确的双曲正切函数相比，“硬”双曲正切函数在计算上是有效的，同时可以防止过拟合。窗口功能的一个警告是，句子开头和结尾的单词上下文没有很好的定义。因此，在输入句子的开头和结尾都有窗口大小一半的填充词，类似于序列模型中的开始和停止指示符。
在这里插入图片描述

使用CNNs进行句子建模可以追溯到（Collobert和Weston，2008）。这项工作使用多任务学习输出多个预测的自然语言处理任务，如词性标签，块，命名实体标签，语义角色，语义相似的词和语言模型。使用查找表将每个单词转换为用户定义维度的向量。因此，n个字的输入序列/s1、s2、…sn/通过对其每个字应用查找表而被转换成一系列向量/ws1、ws2、…wsn/。
用于医学文本分类的CNN架构示例（Hughes et al.，2017)
这可以看作是一种原始的词嵌入方法，其权值是在网络训练中学习的。在（Collobert et al.，2011）中，Collobert et al扩展了他们的工作，提出了一个基于CNN的通用框架来解决大量NLP任务。这两项工作都引发了CNNs在NLP研究者中的巨大普及。鉴于CNNs已经在计算机视觉任务上显示出了他们的勇气，人们更容易相信他们的表现。

CNNs能够从输入句子中提取显著的n-gram特征，为后续任务提供潜在的语义信息。该应用由（Collobert等人，2011；Kalchbrenner等人，2014年；金，2014年），这导致了一个巨大的扩散CNN为基础的网络在随后的文学。下面，我们介绍一个简单的基于CNN的句子建模网络的工作：

3.5.2 Recurrent Neural Network

递归神经网络（Elman，1990）是深层神经网络结构的另一种形式。一般来说，cnn用于表示位置不变函数（如单词包），而rnn表示顺序结构（如句子、段落等）。显然，与层次CNNs相比，RNNs更适合于NER等序列建模任务。虽然我们看到窗口方法有助于处理CNN中的序列输入，但是除了交叉验证中固定的依赖性之外，没有其他方法可以对上下文的依赖性建模。RNN有助于捕获对CNN固定范围以外的单词或句子的依赖性。简单的RNN没有选通机制。RNN是一个跨时间展开的网络，因此提供了内存的空间表示。对于给定的输入，RNN按如下方式计算隐藏状态：
在这里插入图片描述
这里 [st]θ,l] i 是输入序列第i个单位在时间t和层l的隐藏状态。 gθ,l 在以ft为输入的层上是一个非线性函数（如tanh等）作为处理。属于时间t和Wl时输入序列的第i个单位（单词、句子等）。一个简单的RNN中的隐藏状态可以看作是它的存储部件。然而，简单的神经网络存在着梯度消失的问题，使得利用反向传播学习前一时间步长的权值变得困难。因此，简单的RNN增加了一个选通机制来克服收敛问题。在NER中最流行的具有门控机制的RNN变体是长短时记忆（LSTM）和门控复发单位（gru）。

3.5.3 Long Short Term Memory

LSTM（Hochreiter和Schmidhuber，1997）的新颖之处在于它能够桥接长时间间隔（快速学习许多时间步后缓慢变化的权重，如长期记忆）以及保留最近的输入（如短期记忆）。此外，LSTM架构确保了恒定的重加权，从而避免了通过隐藏状态的错误流爆炸或消失。
在这里插入图片描述

LSTM有三个门：输入门it、遗忘门ft和输出门ot，它们是sigmoid函数在输入xt和前面隐藏状态ht-1上的输出。为了在当前步骤t生成隐藏状态，它首先通过对输入xt和前一隐藏状态ht-1运行非线性tanh函数来生成临时变量qt.然后，LSTM将时间t pt 处的更新历史变量计算为先前历史状态pt-1的线性组合−1和当前临时变量qt 分别由当前忘记门 ft 和当前输入门 it 缩放。最后，LSTM在 pt 上运行 tanh 并通过当前输出门 ot 对其进行缩放，得到更新后的隐藏状态ht。
在这里插入图片描述
虽然LSTM擅长于逼近序列中当前单位与先前单位之间的依赖关系，但它没有考虑序列中当前单位与其右侧单位之间的依赖关系(Lample等人，2016）通过实施双向LSTM解决了这个问题（Graves和Schmidhuber，2005）。换句话说，有两个独立的lstm，分别使用目标词左右两侧的输入序列片段进行训练。该模型将前向和后向LSTM的左右上下文表示（即隐藏状态）串联起来，得到目标词的完整表示在这里插入图片描述。

3.5.4 Gated Recurrent Unit

与LSTM相比，门控复发单位（Cho等人，2014）是RNN的一个较新且较不复杂的变体。
在这里插入图片描述
图6: vanillarnn和GRU架构（为简单起见，显示了单个单元），具有复位门r（调整新输入与先前存储器的合并）、更新门z（控制先前存储器的保存）、当前隐藏输出ht和先前隐藏输出ht−1（赵等，2017）

GRU与LSTM类似，因为它调节了误差流，从而避免了梯度消失（Bengio et al.，1994）。然而，GRU与LSTM有许多重要的区别。gru不像LSTMs那样有单独的内存单元。因此gru缺乏对内存内容（即LSTMs的输出门）的受控暴露。与LSTMs不同，GRUs不受任何控制地公开全部内容。此外，gru控制从先前激活到当前候选激活的信息流。另一方面，LSTMs在不控制历史信息流的情况下计算最新的内存内容。GRU的工作原理如下：
在这里插入图片描述
hj是在时间t时GRU在水平j的激活。 $¯ h j$ 是GRU（Bahdanau et al.，2014）在时间t时在j级的候选激活。更新门zjt决定单元更新激活的程度。重置门rj的计算与更新门类似。

3.5.5 Results

表1和表2按时间顺序显示了最先进的神经网络模型在dev上的F1分数，以及CoNLL-2003共享任务和OntoNotes 5.0 NER任务（英语）。表3和表4显示了2002年CoNLL西班牙和荷兰NER共享任务的最新模型的F1得分。
在这里插入图片描述

表1和表2中有22个模型结果，表3和表4中有8个模型结果。为了表示的目的，将神经模型分为2个表，每个表中有11个结果。表3和表4显示了NER的线性和对数线性模型（即不涉及神经网络）的F1分数。最新的NER模型在其结构中没有任何形式的神经网络，该模型于2015年产生。自2015年以来，所有产生最新结果的NER模型都使用神经网络结构。因此，线性方法不太可能与深度学习模型产生的结果相竞争。

从表1还可以清楚地看出，使用字符级和单词级知识（例如地名录、基准语料库（Chelba等人，2013）、LM ie语言模型）有利于神经模型。特别是单词嵌入（Mikolov等人，2013a；彭宁顿）并将子词或字符嵌入作为输入文本语料库的附加特征进行联合训练。此外，大多数最新的LSTM模型（如LSTM-CRF（Huang et al.，2015；Lample et al.，2016），LSTM CNNs（Chiu and Nichols，2015））利用语法（例如字符类型、大小写）、词汇、上下文、词性特征以及预处理来适应NER任务？获得高F！评分（91.2）通过使用手工制作的功能，如单词、字符、词性、块和词干n-grams、Brown和WordNet集群以及来自外部知识库（如Wikipedia和Freebase）的词典。这样的附加信息也可以作为预训练的嵌入到下游模型中。虽然预先训练的模型不是特定于任务的，但是它们提高了NER模型的性能。
在这里插入图片描述
当他们用单词嵌入训练他们的模型时（Collobert et al.，2011），与随机嵌入相比，不管用于训练的附加特征是什么。联合训练策略比预训练策略更有利，因为前者需要的神经网络比后者复杂。因此，联合训练更有效，因为它不需要任何额外的语料库，因此训练时间也更短。

通过预先培训、联合培训或hss联合培训来提高NER F1分数是有代价的。对于一般的神经网络结构，额外的训练层显著增加了神经网络模型的复杂度和训练时间，使得这些模型在实际中的应用变得困难。Strubell等人（2017年）介绍了扩展卷积的使用，它提供了接近最新水平的结果，同时通过一次处理更大的输入窗口以并行方式对上下文建模，提高了现有模型的效率。从表1中可以明显看出，CRF非常适合作为神经网络模型的输出层。