Improving Named Entity Recognition for Chinese Social Media with Word Segmentation 阅读笔记

本文提出了一种结合分词模型与NER任务的联合训练方法,针对中文社交媒体的命名实体识别(NER)问题。通过在LSTM-CRF模型中集成分词表示学习,实验结果显示在NER上取得了近5%的绝对改进。研究发现,将分词信息直接整合到NER模型中,尤其是在领域不匹配的情况下,能有效提升模型表现。
摘要由CSDN通过智能技术生成

Improving Named Entity Recognition for Chinese Social Media with Word Segmentation Representation Learning(利用分词表示学习改进中文社交媒体命名实体识别)

Abstract

对于在文本中不容易识别单词边界的语言,分词是NER系统生成特征关键的第一步。使用单词边界标记作为特征,帮助识别这些边界的信号可以为NER系统提供更丰富的信息。最新的分词系统使用神经模型来学习预测词边界的表示。本文表明,将中文分词模型与命名实体识别任务的目标函数结合起来进行联合训练,会显著的改善中文社交媒体的NER。在本文的实验中,使用LSTM-CRF模型联合训练NER和分词产生了近5%的绝对改进。

Introduction

社交媒体中的NER系统的准确性落后于新闻文本和其他正式领域的最先进系统。而这个差距在英语中正在缩小,但是在如中文等其他语言中并没有显著的改进。
差距的原因: 缺乏为NER提供有用特性的健壮的上游自然语言处理系统,如词性标记或分块。即没有专门为社交媒体进行专门的语言处理,缺少针对此的实体标签,对其专门的分词和词性标注等。在中文等亚洲语言中,分词是自然语言处理的第一步。本文探讨了将词汇边界信息整合到汉语社交媒体语境系统中的更好方法。我们将目前最先进的中文分词系统与最好的中文社交媒体NER模型相结合。由于两个系统都使用了学习过的表示,我们提出了一个集成模型,允许联合训练学习过的表示,与

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值