Chinese NER Using Lattice LSTM 论文解读

最新推荐文章于 2023-04-02 23:05:57 发布

qq_33221657

最新推荐文章于 2023-04-02 23:05:57 发布

阅读量616

点赞数

本文链接：https://blog.csdn.net/qq_33221657/article/details/104977716

版权

Chinese NER Using Lattice LSTM 论文解读

2020.3.19日，本人觉得学习的一些东西后，写点东西可以帮助我进行记忆，同时也为了后续复习使用，以后每周至少分享一篇论文。

背景

传统的lstm网络可以用来实现ner，论文同时指出基于字（charactor）好于基于词（word）的词向量。但是词向量可以充分考虑上下文之间的关系，也就是说字的lstm+crf模型有一个局限，即没有充分利用word和word的序列信息，如何充分利用这些信息，是这篇paper的核心。

预备知识

1.lstm网络
在这里插入图片描述

数学表示：
在这里插入图片描述
参考：[lhttps://blog.csdn.net/m0epNwstYk4/article/details/79124800?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task]

rnn因为自身结构，当时间序列越来越长会出现梯度爆照和梯度消失问题。lstm提出了一个长期状态变量c去控制时间序列，通过c和控制c的开关去连接输入、输出和上一轮的输入，帮助解决梯度消失问题

模型

1.结构
在这里插入图片描述
2.数学表达

整个实现相对传统的lstm，其实是多加了一种长期状态c，而这个c来自于当前字和在字典中开始字的信息，当然也和上一层的隐层有关系，然后就构造了一个类似之前c的一个新形式，这就是式13，没有输出门，因为这里不会影响到输出，只和输入有关。然后将新加的c想办法灌入到原始的c中，新加的c应该和原始的c形式类似，这就形成了式15，但是又少了遗忘门的信息，这是为什么呢？
3.实现
todo

4.疑问
公式15相对一般的cell计算方式少了遗忘门和c-1状态乘？也就是丢失了遗忘门对c的影响？
计算词汇信息时用到了主干 Cell State，因此计算当前字符的 Cell State 时通过门控单元来取舍词汇信息的过程，其实就是在对主干 Cell State 进行取舍，相当于隐含了一个遗忘门。
举例
在这里插入图片描述
回到例子就是在计算桥时候大桥、长江大桥的c已经运用过cell（大）和cell（长）的状态了，公式13 c的计算已经用过cb的遗忘门信息，再用冗余了。

总结

结合lstm，加入字典信息，让网络不但考虑字信息，还考虑词信息，在bert之前效果是杠杠的。

qq_33221657

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Chinese NER Using Lattice LSTM 论文解读

Chinese NER Using Lattice LSTM 论文解读2020.3.19日，本人觉得学习的一些东西后，写点东西可以帮助我进行记忆，同时也为了后续复习使用，以后每周至少分享一篇论文。背景传统的lstm网络可以用来实现ner，论文同时指出基于字（charactor）好于基于词（word）的词向量。但是词向量可以充分考虑上下文之间的关系，也就是说字的lstm+crf模型有一个局...
复制链接

扫一扫