Bidirectional LSTM-CRF Models for Sequence Tagging
Created time: July 12, 2021 2:06 PM
Last edited time: July 30, 2021 9:31 AM
PDF: https://arxiv.org/pdf/1508.01991.pdf
Tags: NER
参考材料: https://zhuanlan.zhihu.com/p/119254570
大致思路: 枚举了LSTM, BI-LSTM, LSTM-CRF, BI-LSTM-CRF
精读: Yes
编辑人: Freax Ruby
目录
概述
采用双向LSTM-CRF模型解决序列标注问题
之前有哪些方法
- 序列标注这块的方法
- Hidden Markov Models (HMM),
- Maximum entropy Markov models (MEMMs)
- Conditional Random Fields (CRF)
- 语言理解这块
- RNN
- CNN
还有提出了双向神经网络解决语音识别问题
做了什么工作
采用LSTM, BI-LSTM, LSTM-CRF, BI-LSTM-CRF。系统的比较了这些模型在NLP标注数据上的效果
对于每个批次,我们首先运行BI-LSTM-CRF模型进行前向传递,其包括LSTM的前向状态和后向状态的前向传递。我们会获取所有位置的所有标签的输出分数作为结果。然后,我们运行CRF层的前向和后向传递,以计算网络输出和状态转换边缘的梯度。做完这些,我们将错误从输出反向传播到输入,这包括对LSTM前向和后向状态的反向传递。最后,我们更新网络参数,这包括转移矩阵 和原初的BI-LSTM的参数。
解决了什么问题
第一个采用BI-LSTM-CRF解决NLP基准序列标注问题,在POS,chunking和NER数据集达到/接近SOTA
创新点在哪里
由于双向LSTM,可以使用过去跟未来的输入信息。
由于有CRF,可以使用句子级别的标签信息。
有鲁棒性,对word embedding的依赖更小
【将拼写特征和上下文特征直接与输出层连接,不仅可以加速训练而且效果与之前一致】
论文中提到可以 将spelling features,context features 和word features 一样处理, 即LSTM network 的输入包括word , spelling , 以及context features.
图8展示了特征与输出直接相连的网络。我们将报告所有使用了这种连接方式的精确度。我们注意到这种特征应用方式与 Mikolov et al. 2011 中使用的最大熵特征有相同的思想。不同之处在于 Mikolov et al. 2011 中采用了特征哈希技术,因此会发生特征碰撞。因为序列标注数据集中输出的标签数远远小于语言模型(通常有数十万个),所以我们可以保证在特征和输出之间采用全连接的同时避免潜在的特征碰撞。
采用了什么数据
Penn TreeBank (PTB) POS tagging,
CoNLL 2000 chunking
CoNLL 2003 named entity tagging.