【论文笔记】Bidirectional LSTM-CRF Models for Sequence Tagging

Bidirectional LSTM-CRF Models for Sequence Tagging

Created time: July 12, 2021 2:06 PM
Last edited time: July 30, 2021 9:31 AM
PDF: https://arxiv.org/pdf/1508.01991.pdf
Tags: NER
参考材料: https://zhuanlan.zhihu.com/p/119254570
大致思路: 枚举了LSTM, BI-LSTM, LSTM-CRF, BI-LSTM-CRF
精读: Yes
编辑人: Freax Ruby

目录

概述

采用双向LSTM-CRF模型解决序列标注问题

之前有哪些方法

  • 序列标注这块的方法
    • Hidden Markov Models (HMM),
    • Maximum entropy Markov models (MEMMs)
    • Conditional Random Fields (CRF)
  • 语言理解这块
    • RNN
    • CNN

还有提出了双向神经网络解决语音识别问题

做了什么工作

采用LSTM, BI-LSTM, LSTM-CRF, BI-LSTM-CRF。系统的比较了这些模型在NLP标注数据上的效果

对于每个批次,我们首先运行BI-LSTM-CRF模型进行前向传递,其包括LSTM的前向状态和后向状态的前向传递。我们会获取所有位置的所有标签的输出分数作为结果。然后,我们运行CRF层的前向和后向传递,以计算网络输出和状态转换边缘的梯度。做完这些,我们将错误从输出反向传播到输入,这包括对LSTM前向和后向状态的反向传递。最后,我们更新网络参数,这包括转移矩阵 和原初的BI-LSTM的参数。

解决了什么问题

第一个采用BI-LSTM-CRF解决NLP基准序列标注问题,在POS,chunking和NER数据集达到/接近SOTA

创新点在哪里

由于双向LSTM,可以使用过去跟未来的输入信息。

由于有CRF,可以使用句子级别的标签信息。

有鲁棒性,对word embedding的依赖更小

【将拼写特征和上下文特征直接与输出层连接,不仅可以加速训练而且效果与之前一致】

在这里插入图片描述

论文中提到可以 将spelling features,context features 和word features 一样处理, 即LSTM network 的输入包括word , spelling , 以及context features.

图8展示了特征与输出直接相连的网络。我们将报告所有使用了这种连接方式的精确度。我们注意到这种特征应用方式与 Mikolov et al. 2011 中使用的最大熵特征有相同的思想。不同之处在于 Mikolov et al. 2011 中采用了特征哈希技术,因此会发生特征碰撞。因为序列标注数据集中输出的标签数远远小于语言模型(通常有数十万个),所以我们可以保证在特征和输出之间采用全连接的同时避免潜在的特征碰撞。

采用了什么数据

Penn TreeBank (PTB) POS tagging,

CoNLL 2000 chunking

CoNLL 2003 named entity tagging.

解决的效果怎么样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值