Chinese NER Using Lattice LSTM 论文解读

Chinese NER Using Lattice LSTM 论文解读

2020.3.19日,本人觉得学习的一些东西后,写点东西可以帮助我进行记忆,同时也为了后续复习使 用,以后每周至少分享一篇论文。

背景

传统的lstm网络可以用来实现ner,论文同时指出基于字(charactor)好于基于词(word)的词向量。但是词向量可以充分考虑上下文之间的关系,也就是说字的lstm+crf模型有一个局限,即没有充分利用word和word的序列信息,如何充分利用这些信息,是这篇paper的核心

预备知识

1.lstm网络
在这里插入图片描述

数学表示:
在这里插入图片描述
参考:[lhttps://blog.csdn.net/m0epNwstYk4/article/details/79124800?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task]

rnn因为自身结构,当时间序列越来越长会出现梯度爆照和梯度消失问题。lstm提出了一个长期状态变量c去控制时间序列,通过c和控制c的开关去连接输入、输出和上一轮的输入,帮助解决梯度消失问题

模型

1.结构
在这里插入图片描述
2.数学表达
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
整个实现相对传统的lstm,其实是多加了一种长期状态c,而这个c来自于当前字和在字典中开始字的信息,当然也和上一层的隐层有关系,然后就构造了一个类似之前c的一个新形式,这就是式13,没有输出门,因为这里不会影响到输出,只和输入有关。然后将新加的c想办法灌入到原始的c中,新加的c应该和原始的c形式类似,这就形成了式15,但是又少了遗忘门的信息,这是为什么呢?
3.实现
todo

4.疑问
公式15相对一般的cell计算方式少了遗忘门和c-1状态乘?也就是丢失了遗忘门对c的影响?
计算词汇信息时用到了主干 Cell State,因此计算当前字符的 Cell State 时通过门控单元来取舍词汇信息的过程,其实就是在对主干 Cell State 进行取舍,相当于隐含了一个遗忘门。

举例
在这里插入图片描述
回到例子就是在计算 桥时候 大桥、长江大桥的c已经运用过cell(大)和cell(长)的状态了,公式13 c的计算已经用过cb的遗忘门信息,再用冗余了。

总结

结合lstm,加入字典信息,让网络不但考虑字信息,还考虑词信息,在bert之前效果是杠杠的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值