Chinese NER Using Lattice LSTM笔记

最新推荐文章于 2022-03-23 15:20:40 发布

牧童在路上

最新推荐文章于 2022-03-23 15:20:40 发布

阅读量241

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/qq_43708647/article/details/114649610

版权

nlp 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

摘要

使用lstm 编码字符和潜在的能匹配lexicon的word,相比于character-based model ,显式地利用了单词和单词序列地信息，相比于word-based model，更不易遭受分词的错误

2.介绍

中文NER 和分词相关，一般情况下，分词的边界就是NER 的边界，然而从分词->NER的流程之间非常有可能遭受错误传播问题，因为NE 是oov的重要来源，并且分词的边界错误问题也会导致NER问题，所以研究证明，使用character-based model比使用word-based model更有效.
但是，显式的单词和单词序列信息却没有被利用
为了解决这个问题，本文在character-based model中融合了潜在的单词信息，主要通过将句子与大量自动获得的lexicon进行匹配，并利用了gated cell 和LSTM对路径进行管束，lattice LSTM 可以在自动地在上下文中找到更多有用的单词，显示利用了单词信息，并没有分词错误

2.相关工作

字符序列标注一直是中文NER的主要方式。
如何在中文NER中更好地利用单词信息已经成为了获得了很多关注，例如，分词信息被用作NER的一个软特征，使用多任务学习训练NER和分词。
外部信息一直被ner利用，尤其是词语特征。在本文中，我们利用与在大量自动分段的文本上预训练得到的 word embedding

3.模型

依然是使用基于字符的LSTM-CRF，但是融合word-based cell和gates来控制信息流动
见原文，不是很难

输入：字符序列以及匹配字典的字符子序列。
字典通过自动分段的大规模文本来构造

4.实验

4.1 实验设置

1.数据集，主要有四种，OntoNotes4.0 、MSRA、weibo、Resume(自己标注的)
2.分词
对于OntoNotes MSRA gold-standard 分词器在训练时被给出,
对于OntoNotes ,gold 分词 预测时给出
自动分割器 off the shell分割器
3. Word Embedding
word 使用word2vec,

over automatically segmented Chinese Giga-Word6,
在训练时被微调
Character
and character bigram embeddings are pretrained
on Chinese Giga-Word using word2vec and finetuned at model training.

4.2 Development Experiments

看原文吹牛逼

牧童在路上

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Chinese NER Using Lattice LSTM笔记

摘要使用lstm 编码字符和潜在的lexicon,相比于character-based model ,更能利用单词信息，相比于word-based，更不易遭受分词的错误
复制链接

扫一扫

专栏目录