论文笔记 arxiv 2015|Bidirectional LSTM-CRF Models for Sequence Tagging

hlee-top

已于 2022-03-30 23:58:00 修改

阅读量487

点赞数 1

分类专栏：论文 NLP 文章标签： nlp 深度学习命名实体识别

于 2021-08-13 22:10:56 首次发布

本文链接：https://blog.csdn.net/o11oo11o/article/details/119684812

版权

论文同时被 2 个专栏收录

125 篇文章 12 订阅

订阅专栏

NLP

125 篇文章 14 订阅

订阅专栏

文章目录

1 简介

论文题目：Bidirectional LSTM-CRF Models for Sequence Tagging
论文来源：2015 arxiv
论文链接：https://arxiv.org/pdf/1508.01991.pdf

1.1 动机

2015年时很多序列标注模式是线性统计模型。

1.2 创新

提出BI-LSTM-CRF模型用于NLP序列标注任务。
该模型具有鲁棒性，很少地依赖词向量。

2 背景知识

LSTM Networks

RNN在语言模型和语音识别等领域取得了不错的效果，RNN的结构如下图。
在这里插入图片描述
相比前馈神经网络，RNN引入以前的隐藏状态和当前的隐藏状态的联系，因此可以保存历史信息。隐藏层h和输出层的公式如下：

其中函数f和g分别是sigmoid和softmax激活函数，公式如下。

在这篇论文中，使用LSTM进行序列标注，LSTM是RNN的改进，可以更好地发现和挖掘数据中的长依赖。LSTM的内部结构如下：
在这里插入图片描述
LSTM是被实现于下面公式，σ是sigmoid函数，i，f，o，c分别是输入门、遗忘门、输出门和cell向量，维度和隐藏向量h相同，从cell向量到门向量的矩阵是对角矩阵(如W_ci)，因此每个门向量的元素m仅来自cell向量的元素m。
在这里插入图片描述

Bidirectional LSTM Networks

模型中使用双向的LSTM，以高效得利用过去和未来的特征，结构如图。
在这里插入图片描述

CRF networks

利用邻居标签信息去预测当前的标签的方法有两种，一种方法是束解码，如最大熵分类器和最大熵马尔科夫模型(MEMMs)，另一种是CRF,它可以产生更高的标签精度。

3 方法

LSTM-CRF networks

LSTM-CRF可以高效地利用过去的输入特征经过LSTM层和句子级别的标签信息经过CRF。
[x]^T₁句子中以[i]^T₁标签开始的路径的转移分数和网络分数的公式如下，其中[A]_i,j是一个连续的事件步中从i状态到j状态的转移分数。
在这里插入图片描述
模型训练的过程如下图，首先经过双向LSTM-CRF模型前向传播，包括前向和后向的状态传递，然后经过CRF层，最后反向传播错误从输出到输入，包括前向和后向状态的反向传递

4 实验

在Penn TreeBank（PTB，宾州树库）词性标注，CoNLL 2000 语义组块识别，以及CoNLL 2003 命名实体识别三个任务中测试模型，实验数据如下图
在这里插入图片描述
在特征和输出之间采用全连接,以避免潜在的特征碰撞，如下图。

实验结果如下表，使用随机和Senna两种词向量对于POS和chunking任务不使用额外的数据。对于NER任务，额外使用拼写和上下文特征。

仅使用词向量的实验效果，如下表。
在这里插入图片描述
和不同系统比较的实验结果。

5 总结

提出了命名实体识别经典的模型Bi-LSTM+CRF。

hlee-top

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文笔记 arxiv 2015|Bidirectional LSTM-CRF Models for Sequence Tagging

文章目录1 简介1.1 动机1.2 创新2 背景知识3 方法4 实验5 总结1 简介论文题目：Bidirectional LSTM-CRF Models for Sequence Tagging论文链接：https://arxiv.org/pdf/1508.01991.pdf1.1 动机1.2 创新2 背景知识3 方法4 实验5 总结...
复制链接

扫一扫