Improving Named Entity Recognition for Chinese Social Media with Word Segmentation 阅读笔记

最新推荐文章于 2023-06-07 19:00:27 发布

sendoh24

最新推荐文章于 2023-06-07 19:00:27 发布

阅读量811

点赞数

分类专栏：论文阅读笔记文章标签： nlp

本文链接：https://blog.csdn.net/weixin_41601540/article/details/114458536

版权

本文提出了一种结合分词模型与NER任务的联合训练方法，针对中文社交媒体的命名实体识别（NER）问题。通过在LSTM-CRF模型中集成分词表示学习，实验结果显示在NER上取得了近5%的绝对改进。研究发现，将分词信息直接整合到NER模型中，尤其是在领域不匹配的情况下，能有效提升模型表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Improving Named Entity Recognition for Chinese Social Media with Word Segmentation Representation Learning(利用分词表示学习改进中文社交媒体命名实体识别)

Improving Named Entity Recognition for Chinese Social Media with Word Segmentation Representation Learning(利用分词表示学习改进中文社交媒体命名实体识别)

Abstract

对于在文本中不容易识别单词边界的语言，分词是NER系统生成特征关键的第一步。使用单词边界标记作为特征，帮助识别这些边界的信号可以为NER系统提供更丰富的信息。最新的分词系统使用神经模型来学习预测词边界的表示。本文表明，将中文分词模型与命名实体识别任务的目标函数结合起来进行联合训练，会显著的改善中文社交媒体的NER。在本文的实验中，使用LSTM-CRF模型联合训练NER和分词产生了近5%的绝对改进。

Introduction

社交媒体中的NER系统的准确性落后于新闻文本和其他正式领域的最先进系统。而这个差距在英语中正在缩小，但是在如中文等其他语言中并没有显著的改进。
差距的原因： 缺乏为NER提供有用特性的健壮的上游自然语言处理系统，如词性标记或分块。即没有专门为社交媒体进行专门的语言处理，缺少针对此的实体标签，对其专门的分词和词性标注等。在中文等亚洲语言中，分词是自然语言处理的第一步。本文探讨了将词汇边界信息整合到汉语社交媒体语境系统中的更好方法。我们将目前最先进的中文分词系统与最好的中文社交媒体NER模型相结合。由于两个系统都使用了学习过的表示，我们提出了一个集成模型，允许联合训练学习过的表示，与

最低0.47元/天解锁文章