论文笔记 arxiv 2015|Bidirectional LSTM-CRF Models for Sequence Tagging

125 篇文章 14 订阅

1 简介

论文题目:Bidirectional LSTM-CRF Models for Sequence Tagging
论文来源:2015 arxiv
论文链接:https://arxiv.org/pdf/1508.01991.pdf

1.1 动机

  • 2015年时很多序列标注模式是线性统计模型。

1.2 创新

  • 提出BI-LSTM-CRF模型用于NLP序列标注任务。
  • 该模型具有鲁棒性,很少地依赖词向量。

2 背景知识

LSTM Networks

RNN在语言模型和语音识别等领域取得了不错的效果,RNN的结构如下图。
在这里插入图片描述
相比前馈神经网络,RNN引入以前的隐藏状态和当前的隐藏状态的联系,因此可以保存历史信息。隐藏层h和输出层的公式如下:
在这里插入图片描述
其中函数f和g分别是sigmoid和softmax激活函数,公式如下。
在这里插入图片描述
在这篇论文中,使用LSTM进行序列标注,LSTM是RNN的改进,可以更好地发现和挖掘数据中的长依赖。LSTM的内部结构如下:
在这里插入图片描述
LSTM是被实现于下面公式,σ是sigmoid函数,i,f,o,c分别是输入门、遗忘门、输出门和cell向量,维度和隐藏向量h相同,从cell向量到门向量的矩阵是对角矩阵(如Wci),因此每个门向量的元素m仅来自cell向量的元素m。
在这里插入图片描述

Bidirectional LSTM Networks

模型中使用双向的LSTM,以高效得利用过去和未来的特征,结构如图。
在这里插入图片描述

CRF networks

利用邻居标签信息去预测当前的标签的方法有两种,一种方法是束解码,如最大熵分类器和最大熵马尔科夫模型(MEMMs),另一种是CRF,它可以产生更高的标签精度。

3 方法

LSTM-CRF networks

LSTM-CRF可以高效地利用过去的输入特征经过LSTM层和句子级别的标签信息经过CRF。
[x]T1句子中以[i]T1标签开始的路径的转移分数和网络分数的公式如下,其中[A]i,j是一个连续的事件步中从i状态到j状态的转移分数。
在这里插入图片描述
模型训练的过程如下图,首先经过双向LSTM-CRF模型前向传播,包括前向和后向的状态传递,然后经过CRF层,最后反向传播错误从输出到输入,包括前向和后向状态的反向传递
在这里插入图片描述

4 实验

在Penn TreeBank(PTB,宾州树库)词性标注,CoNLL 2000 语义组块识别,以及CoNLL 2003 命名实体识别三个任务中测试模型,实验数据如下图
在这里插入图片描述
在特征和输出之间采用全连接,以避免潜在的特征碰撞,如下图。
在这里插入图片描述
实验结果如下表,使用随机和Senna两种词向量对于POS和chunking任务不使用额外的数据。对于NER任务,额外使用拼写和上下文特征。
在这里插入图片描述
仅使用词向量的实验效果,如下表。
在这里插入图片描述
和不同系统比较的实验结果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 总结

提出了命名实体识别经典的模型Bi-LSTM+CRF。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hlee-top

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值