Bidirectional LSTM-CRF Models for Sequence Tagging 论文理解及翻译

摘要

在这篇论文中,我们提出了一系列用于序列标注的长短期记忆 (LSTM)模型。这些模型包括了LSTM网络,双向LSTM (BI-LSTM)网络,带有条件随机场(CRF)的LSTM(LSTM-CRF),以及带有CRF层的双向LSTM (BI-LSTM-CRF)。我们的工作首次在NLP基准序列标记数据集中使用双向LSTM CRF(记为BI-LSTM-CRF)。我们证明,因为双向LSTM组件,BILSTM-CRF模型可以有效影响过去和未来的输入特征。而由于CRF层,模型同时能使用句子层标记信息。 BI-LSTMCRF模型在POS(词性标注),chunking(语义组块标注)和 NER(命名实体识别)数据集上都达到了目前最优的精确度。另外,对比以前的方法,该模型是健壮的,并且减少了对词向量的依赖性。

介绍

序列标注包括词性标注 (POS),分块,以及命名实体识别 (NER)都是经典的NLP任务。在近几十年得到了研究者的注意,这些输出的标签能够应用于下游的应用。例如,可以使用一个经过用户搜索查询训练的命名实体识别器来识别哪些文本是产品,从而触发某些产品广告。其他例子例如,搜索引擎可以使用此类标签信息来查找相关网页。

大多数现存的序列标记模型都是线性统计模型,例如隐马尔可夫模型 (HMM),最大熵马尔科夫模型 (MEMMs),以及条件随机场(CRF)等。基于卷积网络的模型最近被用于处理序列标注问题。我们标记这样的模型为 Conv-CRF模型:它由卷积网络构成,并且输出层为CRF层(原文中使用了句子级对数似然(SSL)这一术语)。Conv-CRF模型在序列标注任务中产生了非常有希望的结果。在语音理解社区,最近提出了基于循环神经网络和卷积网络的模型。其他相关工作包括了用于语音识别的双向循环神经网络。

在这篇文章中,我们提出了一系列用于序列标注的神经网络模型。这些模型包括LSTM网络,双向LSTM网络(BI-LSTM),带有CRF层的LSTM网络,和带有CRF层的双向LSTM网络(BILSTM-CRF)。我们的贡献可以简要说明如下:(1)我们系统的比较了上述模型在NLP标记数据集上的性能。(2)我们的工作首次将一个双向 LSTM CRF (记为 BI-LSTM-CRF) 模型用于NLP基准序列标记数据集。基于双向 LSTM 组件, BI-LSTM-CRF 模型可以有效地利用过去和未来的输入特征。(3)我们证明了BI-LSTM-CRF模型相对以前模型的健壮性,并且对词向量更少的依赖性。它可以产生准确的标注性能,而无需借助于词向量。

论文的其余部分安排如下:在第2部分将会描述这篇论文用到的序列标记模型,在第3部分将展示训练过程,在第4部分报告实验结果,在第5部分讨论相关实验,最后在第6部分得出结论。

2 模型

在这部分。我们描述这篇文章使用的模型:LSTM, BI-LSTM, CRF, LSTM-CRF 和BI-LSTM-CRF。

2.1LSTM网络

循环神经网络 (RNN)在多种任务包括语言模型和语音识别中取得了很有前景的效果。. 一个RNN维持的记忆是基于历史信息,能够使模型通过长距离的特征来预测当前的输出。图1显示了RNN的结构,

  • 10
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值