论文阅读《Bidirectional LSTM-CRF Models for Sequence Tagging》

论文地址:《Bidirectional LSTM-CRF Models for Sequence Tagging》

论文阅读

研究背景

序列标记包括部分语音标记(POS)、分块和命名实体识别(NER),一直是一项经典的NLP任务。现有的序列标记模型大多是线性统计模型,其中包括隐马尔可夫模型(HMM)、最大熵马尔可夫模型(MEMMs)和条件随机场(CRF)。以及基于卷积网络的模型被提出来解决序列标记问题。本文首次将BI-LSTM-CRF模型应用于NLP基准序列标记数据集。

BI-LSTM-CRF 网络

将一个双向的LSTM网络和一个CRF网络结合起来,形成了一个BI-LSTM-CRF网络。除了LSTM-CRF模型中过去使用的输入特征和句子级标签信息外,BI-LSTM-CRF模型还可以使用未来的输入特征。这些额外的特征可以提高标记的准确性。
在这里插入图片描述

训练流程

对于每个batch,首先运行双向LSTM-CRF模型正向传递,其中包括LSTM的正向状态和向后状态的正向传递。得到了在所有位置上的所有标签的输出分数(发射矩阵)。然后,我们运行CRF层向前和向后传递来计算网络输出和状态转换边缘的梯度(转移矩阵)。在此之后,我们可以将错误从输出反向传播到输入,其中包括LSTM的正向状态和反向状态的反向传递。最后,更新了网络参数。
在这里插入图片描述

实验

(1) 数据:在三个NLP标记任务中使用的数据集为,Penn TreeBank (PTB) 词性标注,
CoNLL 2000 分块,和 CoNLL 2003 命名实体识别。
在这里插入图片描述
(2)特征:为三个数据集提取相同类型的特征。这些特性可以分组为拼写特性和上下文特性。
(3) 拼写特征:
在这里插入图片描述
(4)上下文特征: 使用unigram 特征 和bi-grams 特征。
(5)特征连接技巧:把拼写和上下文特征当作单词特征来处理。也就是说,网络的输入包括单词、拼写和上下文特征。然而,我们发现从拼写和上下文特征到输出的直接连接加速了训练,它们导致了非常相似的标记精度。在特征和输出之间建立完全的连接,以避免潜在的特征冲突。
在这里插入图片描述

结果对比

在这里插入图片描述

结论

观察结果相比,BI-LSTM-CRF模型是鲁棒性的,并且它对单词嵌入的依赖性更小。它可以不需要使用单词嵌入来实现精确的标记精度。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值