ACL2017:扩展命名实体识别API及其在语言教育中的应用 (翻译)

摘要:我们提出了一个扩展命名实体识别API来识别各种类型的实体,并将实体分类为200个不同的类别。每个实体都被划分为实体类别中的一个层次,其中层次结构中根附近的类别比叶子附近的类别更具有概括性。这些类别信息可用于各种应用程序,如语言教育应用程序、在线新闻服务和推荐引擎。本文展示了该API在一个针对日语学习者的日文在线新闻服务中的应用。

1 引言

       命名实体识别(NER)是信息检索、信息提取和问答系统(Bellot et al., 2002; Nadeau and Sekine, 2007)中最基本的任务。因此,一个高质量的命名实体识别API(应用程序编程接口)对于更高层次的任务,如实体检索、推荐和自动对话生成非常重要。为提高命名实体的识别能力,Sekin等人(Sekine et al., 2002; Sekine and Nobata, 2004)提出了一种扩展的命名实体(ENE)的层次结构,改善了命名实体的定义。ENE的层次结构是一个三层结构,顶层包含十个以上的粗粒度类别,叶级包含200个细粒度类别。

        层次结构的顶层包括传统的命名实体类别,如人、地点或组织。中间层和叶级将顶级分类细化到更细粒度的类别。图1显示了顶级类别“组织”的部分层次结构。在扩展的命名实体识别(ENER)问题,给定一个输入的句子,如“Donald Trump was officially nominated by the Republican Party”,系统必须识别并对句子中的扩展命名实体进行分类,如“Donald Trump”为“人”的类别,“Republican Party”为“政党”类别。

                      图1 扩展命名实体(ENE)的层次结构

       本文提出一个日文扩展命名实体识别API的体系结构设计与实现。我们称这个API为“AL+ENER API”。在大量训练数据样本下,所提出的架构表现出良好效能,并在实际应用中具备较快的响应速度。为说明AL+ENER API的有效性,我们描述了此API在日语在线新闻服务中术语自动提取的应用。从用户的反馈表明,ENER API在词汇产生任务中表现出较高的准确率。

       本文的如下部分安排如下。第2节描述了ENER API的技术的设计与实现。第3节给出了实验结果以评估API的性能。第4节描述了ENER API在为日语学习者设计的在线新闻服务中的应用,从服务中获取用户反馈以提高ENER系统性能的方法,以及从用户反馈得到的统计数据。第5部分回顾了相关系统并与该系统进行对比。最后,第6节总结全文。

2 扩展命名实体识别API

2.1 AL+ ENER API概述

       AL+ ENER API 是一款扩展命名实体识别的应用程序编程接口,它以一个句子作为输入,输出为一个包含句中扩展命名实体的JSON列表,如图2所示。

                                                                  图2 AL+ENE识别API

       不同于传统的命名实体识别API,这个API可以标注能源200大类(类别列表见: http://nlp.cs.nyu.edu/ene/),包括一些未定义的实体(因此,他们被称为“扩展”的命名实体,具体描述见(Sekine and No- bata, 2004))。在图2中,“president”不是一个传统的命名实体,但它被标记为扩展命名实体层次结构中的一个类别POSITION VOCATION。每一个实体,我们

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值