文章目录
Improving Named Entity Recognition for Chinese Social Media with Word Segmentation Representation Learning(利用分词表示学习改进中文社交媒体命名实体识别)
Abstract
对于在文本中不容易识别单词边界的语言,分词是NER系统生成特征关键的第一步。使用单词边界标记作为特征,帮助识别这些边界的信号可以为NER系统提供更丰富的信息。最新的分词系统使用神经模型来学习预测词边界的表示。本文表明,将中文分词模型与命名实体识别任务的目标函数结合起来进行联合训练,会显著的改善中文社交媒体的NER。在本文的实验中,使用LSTM-CRF模型联合训练NER和分词产生了近5%的绝对改进。
Introduction
社交媒体中的NER系统的准确性落后于新闻文本和其他正式领域的最先进系统。而这个差距在英语中正在缩小,但是在如中文等其他语言中并没有显著的改进。
差距的原因: 缺乏为NER提供有用特性的健壮的上游自然语言处理系统,如词性标记或分块。即没有专门为社交媒体进行专门的语言处理,缺少针对此的实体标签,对其专门的分词和词性标注等。在中文等亚洲语言中,分词是自然语言处理的第一步。本文探讨了将词汇边界信息整合到汉语社交媒体语境系统中的更好方法。我们将目前最先进的中文分词系统与最好的中文社交媒体NER模型相结合。由于两个系统都使用了学习过的表示,我们提出了一个集成模型,允许联合训练学习过的表示,与