《Neural Architectures for Named Entity Recognition》paper notes

本文介绍了两种用于命名实体识别(NER)的新型神经网络架构:一种基于双向LSTM和CRF,另一种是受转换方法启发的基于片段的模型。模型依赖于有监督的字符级和无监督的词级表示,且在多种语言的NER任务中取得了最佳性能,无需依赖特定语言知识或资源。
摘要由CSDN通过智能技术生成

《Neural Architectures for Named Entity Recognition》

摘要

为了从有监督的比较小的训练词典中有效学习,最好的命名实体识别系统(named entity recognition)的实现很大部分依赖于手工标注的特征(features)和领域知识(domain-specific knowledge)。

本论文介绍两个新的网络架构,一个是基于双向lstm和条件岁机场,另一个是受shift-reduce解析器的启发,基于转换的方法进行构建和标注片段。

本文模型依赖于词信息的两个信息源,一个是来源于有监督词典的基于字符的单词表示;另一个是基于无监督的未标注的词表示。

在没有借助任何语言相关的知识和类似地名索引(gazetteers)资源的前提下,我们的模型在四种语言的NER中得到了最好的性能。

1 引言

NER是一个很有挑战性的学习问题。一方面因为在大多数的语言和领域中,可利用的有监督的训练数据特别少。另一方面,可以被命名的单词种类所受限制太少,所以从少量的数据样本中进行泛化很困难。所以为了解决上述问题,一般都是构建正交特征和类似地名索引(gazetteers)语言特定的知识语料。但是在新语言和新领域中开发基于语言特定知识的语料成本很高,这样使NER的挑战性更高。

无监督的未标注词典提供了一种可替代的策略,可以从小的样本数据中获得更好的泛化性能。然而,即使是在大多数都依赖于无监督特征的NER系统中,也是选择在此特征基础上增加手工标注的特征和特定的语言知识语料而不是替换掉无监督特征。

本文提出一种不使用语言特定的语料或特征,基于少量的有监督训练数据和未标注的词典实现一种NER网络架构。

本模型主要用于捕捉两个信息。

(1)第一点因为names总是含有多个token,所以对每个token作出合理的标注决策是很重要的。关于这一点,我们对比了两个模型。

(i)BLSTM+CRF。
(ii)S-LSTN。基于转换方法的构建和标注输入语句。

(2)对于token水平的判断名称的证据有两个,一个是正交(orthographic)证据,另一个是分布式(distributional)证据。

利用基于字向量的单词表示模型(character-based word representa- tion model)捕捉正交敏感特性;将分布式表示方法与其他表示方法结合起来来捕捉分布式敏感特性。

在英语、荷兰语、德语和西班牙语的实验上,表明基于LSTM-CRF的模型性能最好。基于转换的方法transition-based方法在很多语言模型上也超过了已发表的结果,虽然没有超过lstm-crf模型。

2 LSTM-CRF model

简单介绍下LSTM和CRF,以及现在的混合标注架构。

2.1 LSTM

循环神经网络是对序列数据进行操作的一中神经网络。RNN将向量的序列 ( x 1 , x 2 , . . . x ) n ) (x_{1},x_{2},...x)_{n}) (x1,x2,...x)n)作为输入,并得到一个输出序列 h 1 , h 2 , . . . h n h_{1},h_{2},...h_{n} h1,h2,...hn,输出序列表示的是关于输入序列在每一时间步的信息。lstm是为了解决RNN长期依赖问题所提出的一种RNN的变体,lstm加入了一个记忆单元能够捕捉到长期的依赖信息。同时加入了门控单元,用于控制输入信息的哪部份将被送入记忆单元,历史信息的哪部份将被遗忘。

下图为门控单元的数学原理。

这里写图片描述

σ \sigma σ是sigmoid函数。

( x 1 , x 2 , . . . x

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值