Chinese NER Using Lattice LSTM笔记

摘要

使用lstm 编码字符和潜在的能匹配lexicon的word,相比于character-based model ,显式地利用了单词和单词序列地信息,相比于word-based model,更不易遭受分词的错误

2.介绍

中文NER 和分词相关,一般情况下,分词的边界就是NER 的边界,然而从分词->NER的流程之间非常有可能遭受错误传播问题,因为NE 是oov的重要来源,并且分词的边界错误问题也会导致NER问题,所以研究证明,使用character-based model比使用word-based model更有效.
但是,显式的单词和单词序列信息却没有被利用
为了解决这个问题,本文在character-based model中融合了潜在的单词信息,主要通过将句子与大量自动获得的lexicon进行匹配,并利用了gated cell 和LSTM对路径进行管束,lattice LSTM 可以在自动地在上下文中找到更多有用的单词,显示利用了单词信息,并没有分词错误

2.相关工作

字符序列标注一直是中文NER的主要方式。
如何在中文NER中更好地利用单词信息已经成为了获得了很多关注,例如,分词信息被用作NER的一个软特征,使用多任务学习训练NER和分词。
外部信息一直被ner利用,尤其是词语特征。在本文中,我们利用与在大量自动分段的文本上预训练得到的 word embedding

3.模型

依然是使用基于字符的LSTM-CRF,但是融合word-based cell和gates来控制信息流动
见原文,不是很难

  • 输入:字符序列以及 匹配字典的字符子序列。
    字典通过自动分段的大规模文本来构造

4.实验

4.1 实验设置

1.数据集,主要有四种,OntoNotes4.0 、MSRA、weibo、Resume(自己标注的)
2.分词
对于OntoNotes MSRA gold-standard 分词器在训练时被给出,
对于OntoNotes ,gold 分词 预测时给出
自动分割器 off the shell分割器
3. Word Embedding
word 使用word2vec,

over automatically segmented Chinese Giga-Word6,
在训练时被微调
Character
and character bigram embeddings are pretrained
on Chinese Giga-Word using word2vec and finetuned at model training.

4.2 Development Experiments

看原文吹牛逼

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值