Bidirectional LSTM-CRF Models for Sequence Tagging
一、引用
[1] Huang Z , Xu W , Yu K .Bidirectional LSTM-CRF Models for Sequence Tagging[J].Computer Science, 2015.DOI:10.48550/arXiv.1508.01991.
二、文献类型
Computer Science
三、研究内容
(一) 摘要
本文提出了多种基于神经网络的序列标注模型。这些模型包括LSTM网络、双向LSTM网络(BI-LSTM)、带CRF层的LSTM网络(LSTM-CRF)和带CRF层的双向LSTM网络(BILSTM-CRF)。我们的贡献可以概括如下。1)系统比较了上述模型在NLP标注数据集上的性能;2)我们的工作首次将双向LSTM CRF(表示为BI-LSTM-CRF)模型应用于NLP基准序列标记数据集。由于双向LSTM组件,该模型可以使用过去和未来的输入特征。此外,由于有CRF层,该模型可以使用句子级别的标记信息。我们的模型可以在词性标注(POS)、分块和NER数据集上产生最先进(或接近)的精度;3)我们证明了BI-LSTMCRF模型具有鲁棒性,与之前的观察结果相比,它对词嵌入的依赖程度更低(Collobert et al, 2011)。它可以产生准确的标记性能,而无需诉诸词嵌入。
(二) 模型
1. LSTM Networks
图1显示了RNN结构(Elman, 1990),其中有输入层x、隐藏层h和输出层y。图1演示了一个命名实体识别系统,其中每个单词都使用其他(O)或四种实体类型之一进行标记:Person (PER)、Location (LOC)、Organization (ORG)和Miscellaneous (MISC)。
隐藏层和输出层的值计算如下:
其中U、W、V为训练时间内需要计算的连接权值,f(z)、g(z)为sigmoid和softmax激活函数。
LSTM记忆单元:
图3显示了一个LSTM序列标记模型,该模型使用了前面提到的LSTM存储单元(圆角虚线框)。
2. Bidirectional LSTM Networks
3. CRF networks
利用邻居标签信息预测当前标签有两种不同的方法。首先是预测每个时间步长(即每个词)的标签分布,然后使用类波束解码来找到最优的标签序列,例如最大熵分类器和最大熵马尔可夫模型。第二种方法是关注句子级别而不是单个位置,从而导致了条件随机场(CRF)模型。注意,输入和输出是直接连接的,与使用记忆细胞/循环组件的LSTM和双向LSTM网络不同。
不同模型分块F1得分比较
NER不同模型F1得分比较
4. LSTM-CRF networks
该网络可以通过LSTM层有效地利用过去的输入特征,并通过CRF层有效地利用句子级标签信息。
5. BI-LSTM-CRF networks
(三) 训练过程
(四) 实验结果
表1分别显示了训练集、验证集和测试集的句子、标记和标签的大小。
将拼写和上下文特征直接连接到输出层可以加速训练过程。
表2中报告了模型在测试数据集上的性能,表2还列出了(Collobert et al, 2011)中的最佳结果,用convr - crf表示。POS任务通过计算每个单词的准确性来评估,而块和NER任务通过计算块上的F1分数来评估。
为了估计模型相对于工程特征(拼写和上下文特征)的鲁棒性,我们只使用单词特征(删除拼写和上下文特征)训练,括号中的数字表示与使用拼写和上下文特性的相同模型相比的性能下降。
不同模型对POS标注准确率的比较:
不同模型分块F1得分比较
NER不同模型F1得分比较
四、链接
📎Bidirectional LSTM-CRF Models for Sequence Tagging.pdf