摘要
使用lstm 编码字符和潜在的能匹配lexicon的word,相比于character-based model ,显式地利用了单词和单词序列地信息,相比于word-based model,更不易遭受分词的错误
2.介绍
中文NER 和分词相关,一般情况下,分词的边界就是NER 的边界,然而从分词->NER的流程之间非常有可能遭受错误传播问题,因为NE 是oov的重要来源,并且分词的边界错误问题也会导致NER问题,所以研究证明,使用character-based model比使用word-based model更有效.
但是,显式的单词和单词序列信息却没有被利用
为了解决这个问题,本文在character-based model中融合了潜在的单词信息,主要通过将句子与大量自动获得的lexicon进行匹配,并利用了gated cell 和LSTM对路径进行管束,lattice LSTM 可以在自动地在上下文中找到更多有用的单词,显示利用了单词信息,并没有分词错误
2.相关工作
字符序列标注一直是中文NER的主要方式。
如何在中文NER中更好地利用单词信息已经成为了获得了很多关注,例如,分词信息被用作NER的一个软特征,使用多任务学习训练NER和分词。
外部信息一直被ner利用,尤其是词语特征。在本文中,我们利用与在大量自动分段的文本上预训练得到的 word embedding
3.模型
依然是使用基于字符的LSTM-CRF,但是融合word-based cell和gates来控制信息流动
见原文,不是很难
- 输入:字符序列以及 匹配字典的字符子序列。
字典通过自动分段的大规模文本来构造
4.实验
4.1 实验设置
1.数据集,主要有四种,OntoNotes4.0 、MSRA、weibo、Resume(自己标注的)
2.分词
对于OntoNotes MSRA gold-standard 分词器
在训练时被给出,
对于OntoNotes ,gold 分词
预测时给出
自动分割器 off the shell分割器
3. Word Embedding
word 使用word2vec,
over automatically segmented Chinese Giga-Word6,
在训练时被微调
Character
and character bigram embeddings are pretrained
on Chinese Giga-Word using word2vec and finetuned at model training.
4.2 Development Experiments
看原文吹牛逼