序列标注的双向LSTM-CRF模型笔记

星空*大海

已于 2024-08-02 16:38:24 修改

阅读量1k

点赞数 22

分类专栏：论文文章标签： lstm 人工智能 rnn

于 2024-08-02 16:08:09 首次发布

本文链接：https://blog.csdn.net/qq_45887766/article/details/140872815

版权

论文专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Bidirectional LSTM-CRF Models for Sequence Tagging

一、引用

[1] Huang Z , Xu W , Yu K .Bidirectional LSTM-CRF Models for Sequence Tagging[J].Computer Science, 2015.DOI:10.48550/arXiv.1508.01991.

二、文献类型

Computer Science

三、研究内容

(一) 摘要

本文提出了多种基于神经网络的序列标注模型。这些模型包括LSTM网络、双向LSTM网络(BI-LSTM)、带CRF层的LSTM网络(LSTM-CRF)和带CRF层的双向LSTM网络(BILSTM-CRF)。我们的贡献可以概括如下。1)系统比较了上述模型在NLP标注数据集上的性能;2)我们的工作首次将双向LSTM CRF(表示为BI-LSTM-CRF)模型应用于NLP基准序列标记数据集。由于双向LSTM组件，该模型可以使用过去和未来的输入特征。此外，由于有CRF层，该模型可以使用句子级别的标记信息。我们的模型可以在词性标注(POS)、分块和NER数据集上产生最先进(或接近)的精度;3)我们证明了BI-LSTMCRF模型具有鲁棒性，与之前的观察结果相比，它对词嵌入的依赖程度更低(Collobert et al, 2011)。它可以产生准确的标记性能，而无需诉诸词嵌入。

(二) 模型

1. LSTM Networks

图1显示了RNN结构(Elman, 1990)，其中有输入层x、隐藏层h和输出层y。图1演示了一个命名实体识别系统，其中每个单词都使用其他(O)或四种实体类型之一进行标记:Person (PER)、Location (LOC)、Organization (ORG)和Miscellaneous (MISC)。

隐藏层和输出层的值计算如下：

其中U、W、V为训练时间内需要计算的连接权值，f(z)、g(z)为sigmoid和softmax激活函数。

LSTM记忆单元：

图3显示了一个LSTM序列标记模型，该模型使用了前面提到的LSTM存储单元(圆角虚线框)。

2. Bidirectional LSTM Networks

3. CRF networks

利用邻居标签信息预测当前标签有两种不同的方法。首先是预测每个时间步长（即每个词）的标签分布，然后使用类波束解码来找到最优的标签序列，例如最大熵分类器和最大熵马尔可夫模型。第二种方法是关注句子级别而不是单个位置，从而导致了条件随机场（CRF）模型。注意，输入和输出是直接连接的，与使用记忆细胞/循环组件的LSTM和双向LSTM网络不同。