Improving Named Entity Recognition for Chinese Social Media with Word Segmentation 阅读笔记

Improving Named Entity Recognition for Chinese Social Media with Word Segmentation Representation Learning(利用分词表示学习改进中文社交媒体命名实体识别)

Abstract

对于在文本中不容易识别单词边界的语言,分词是NER系统生成特征关键的第一步。使用单词边界标记作为特征,帮助识别这些边界的信号可以为NER系统提供更丰富的信息。最新的分词系统使用神经模型来学习预测词边界的表示。本文表明,将中文分词模型与命名实体识别任务的目标函数结合起来进行联合训练,会显著的改善中文社交媒体的NER。在本文的实验中,使用LSTM-CRF模型联合训练NER和分词产生了近5%的绝对改进。

Introduction

社交媒体中的NER系统的准确性落后于新闻文本和其他正式领域的最先进系统。而这个差距在英语中正在缩小,但是在如中文等其他语言中并没有显著的改进。
差距的原因: 缺乏为NER提供有用特性的健壮的上游自然语言处理系统,如词性标记或分块。即没有专门为社交媒体进行专门的语言处理,缺少针对此的实体标签,对其专门的分词和词性标注等。在中文等亚洲语言中,分词是自然语言处理的第一步。本文探讨了将词汇边界信息整合到汉语社交媒体语境系统中的更好方法。我们将目前最先进的中文分词系统与最好的中文社交媒体NER模型相结合。由于两个系统都使用了学习过的表示,我们提出了一个集成模型,允许联合训练学习过的表示,与基于分词输出的特征相比,我们为NER系统提供了更多关于从分词中学习到的隐藏表示的信息。
在这里插入图片描述

Model

利用LSTM神经模型学习表示,将最佳的中文分词系统与最佳的中文社交媒体NER模型集成在一起,该模型支持用对数双线性CRF训练神经表示。

  1. LSTM for Word Segmentation
    一种从左到右的单层LSTM用于中文分词。LSTM是一种递归神经网络(RNN),它使用一系列门(输入门、遗忘门和输出门)来控制内存在模型的隐藏状态下如何传播。在汉语分词任务中,将每个汉字初始化为一个d维向量,LSTM将在培训期间进行修改。对于每个输入字符,模型学习一个隐藏向量h。然后将这些向量与有偏差线性转换一起使用,以预测输出标签。
  2. Log-bilinear CRF for NER
    中文社交媒体NER的对数双线性模型。使用了标准的NER特征以及基于词汇嵌入的附加特征。通过微调这些嵌入,并与word2vec 目标联合训练,得到的模型是对数双线性的。典型的词汇嵌入为每个单词类型提供一个嵌入向量。然而,中文文本不进行分词,导致输入与嵌入向量之间的映射不清晰。Peng和Dredze(2015)探索了几种类型的汉语表示,包括预切分输入来获取单词,使用字符嵌入,以及基于字符在单词中的位置来学习字符嵌入的组合方法。这最终的表现带来了最大的改进。本文用了同样的方法,但是用了LSTM学习表示,我们使CRF和LSTM参数之间的交互成为可能。
  3. Using Segmentation Representations to Improve NER
    分词信息对NER有帮助,除了嵌入之外,在NER系统中包含这些信息的一种简单方法是使用预测的分割标签作为特征向CRF添加特征。然而,这些特征本身可能会忽略来自分割模型的有用信息,因此,需要寻求切分词和NER模型之间更深层次的相互作用的方法。LSTM分词器学习两种不同类型的表示:1)每个字符的嵌入和2)用于预测分词标签的隐藏向量。将这些丰富的表示压缩成一个小的特征集,会给NER使用更丰富的分词相关信息带来瓶颈。因此,我们尝试将这两个信息源直接包含到NER模型中。由于对数双线性CRF已经支持词汇嵌入的联合训练,我们也可以使用联合目标函数将LSTM输出的隐藏向量作为动态特征。
    首先,用LSTM参数扩充CRF,这些特征现在依赖于学习的嵌入LSTM 和LSTM的输出隐藏向。注意,如果只包含 h w h_w hw,我们就建立了对隐藏状态所依赖的所有LSTM参数的依赖(即权重矩阵)。
    联合训练:在综合模式,LSTM参数用于预测分词和NER。因此,考虑联合训练方案。最大化一个(加权)共同目标:
    在这里插入图片描述
    λ在更好的分割或更好的NER之间进行权衡,而θ包括两个模型中使用的所有参数。

Parameter Estimation

使用交替优化策略训练联合模型。由于分割数据集明显大于NER数据集,在每次迭代时对分割数据集进行子样本,使其与NER训练数据的大小相同,但每次迭代的子样本不同。我们发现分段抽样至关重要,它显著减少了训练时间,并允许我们更好地探索超参数空间
在这里插入图片描述

Experiments and Analysis

  1. 数据集
    分词数据:来自SIGHAN 2005共享任务。我们使用了北大部分,其中43,963个单词句子作为训练,4278个句子作为测试。没有应用任何特殊的预处理
    NER数据 数据集包含1890条新浪微博,标注了四种实体类型(人、组织、位置和地缘政治实体),包括命名提及和名义提及。我们注意到分词数据集明显大于NER数据,我们在训练过程中的进行子抽样
  2. Results and Analysis
    首先训练一个LSTM用于分词,然后使用训练的嵌入和隐藏向量作为NER的对数双线性CRF模型的输入,并对这些表示进行微调。这改进了测试F1通过2%,大约一半的整体改进来自联合训练

Discussion

我们的方法看作是多任务学习,我们使用相同的学习表示(嵌入和隐藏向量)两个任务:分割和
NER,它使用不同的预测和解码层。结果8显示了排除额外的NER特性和仅仅共享共同训练的LSTM的效果.
本文分词数据来自新闻领域,而NER数据来自社交媒体。众所周知,根据新闻训练的分词系统在社交媒体上表现得更差,我们在将我们的模型应用到这些不同的领域时,仍然显示出了很大的改进。在领域不匹配的情况下,我们可能能够获得更好的结果,因为我们将LSTM模型的表示直接集成到我们的CRF中,而不是仅仅使用LSTM分割模型的预测。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值