NLP&CC2014中文实体链接任务说明

本文详细介绍了NLPCC 2014年中文实体链接任务,包括任务概述、数据、评分指标和提交要求。任务旨在评估命名实体与中文知识库的对齐技术,使用基于2013年中文维基百科的InfoBox作为参考知识库,数据集包含微博和新闻文章,评价标准为微平均精度。
摘要由CSDN通过智能技术生成

        中文实体链接研究多采用NLP&CC-2013或NLP&CC-2014的实验数据来进行实验,故对NLP&CC-2014的中文实体链接任务说明进行总结。

NLPCC 2014 Shared Tasks Guidelines Chinese Entity Linking

目录

NLPCC 2014 Shared Tasks Guidelines Chinese Entity Linking


1. 概述

2. 任务

3. 数据

4. 评分指标

5. 提交

 

1.概述

2014年NLPCC实体链接评估的主要目标是评估当前将各种文本资源中的命名实体与参考中文知识库中的实体对齐的技术进步。
2.任务

       在此实体链接任务中,每个查询由名称字符串,背景文档和一对UTF-8字符偏移组成,这些偏移指示背景文档中字符串的开始和结束位置。期望EL系统输出查询名称字符串应该引用的知识库条目的ID,或者如果不存在这样的知识库条目则输出NIL标记。此任务中使用的参考知识库是根据2013年Wikipedia转储中文部分的InfoBoxes构建的。
3.数据
       本评估中使用的参考知识库包括基于2013年中文维基百科转储的InfoBox的大约400,000个实体。此知识库中的每个实体都将包含名称字符串,KB条目ID以及<subject,predicate,object>形式的一组断言。该参考知识库将在4月底与训练数据集一起提供。
       此任务中使用的背景文档集将包括两种不同类型的中文文本资源,微博消息(来自新浪微博)和新闻文章。实体通常出现在具有不同名称变体或不同背景文档的多个查询中。所有数据集都采用XML格式,采用UTF-8编码。示例查询是:

<weibo id=”1”>
   
   <content >北京时间 3 月 12 日,2013 亚冠联赛小组赛第二轮,广州恒大足球俱乐部客场挑战全北现代,广州恒大首发已经公布。</content>
   
   <name id=”1” >广州恒大足球俱乐部</name>
   <startoffset id=”1” >25</startoffset>
   <endoffset id=”1” >34</endoffset>
   <kb id=”1” >KBxxxx<kb>
   
   <name id=”2” >全北现代</name>
   <startoffset id=”2” >38</startoffset>
   <endoffset id=”2” >42</endoffset>
   <kb id=”2” >KByyyy<kb>
   
   <name id=”3” >广州恒大</name>
   <startoffset id=”3” >43</startoffset>
   <endoffset id=”3” >47</endoffset>
   <kb id=”3” >KBxxxx<kb>
</weibo>

在这个示例中,两个实体指称项“广州恒大足球俱乐部”和“广州恒大”都应该指向相应的知识库中同一个目标实体“EN:WIKI:广州恒大足球俱乐部”。而实体指称项“全北现代”应该指向知识库中的实体“EN:WIKI:全北现代汽车足球俱乐部”。

4.评分指标
        对于具有背景文档的一组查询名称字符串,需要EL系统来判断每个查询是否可以链接到参考知识库中的任何条目。我们将在名称字符串中应用微平均精度来评估系统的性能。例如,测试数据中总共有5个名称字符串,一个团队提交了以下系统输出:

Test InstancesSystemOutputGold-Standard Result
wb1_n1KB1000KB1000Correct
wb2_n1KB1222KB1222Correct
wb2_n2KB2000KB2000Correct
wb3_n1KB3111KB3111Correct
wb3_n2NILKB3111Wrong

则此提交的平均准确度将为4/5 = 0.8

5.提交
        每个团队只允许提交一份提交文件,其规格如下:
form:

idsystem-iddoc-idname-idKB-id
1TeamABCweibo-11KBWKxxxxx
2TeamABCweibo-21KBWKxxxxx
3TeamABCweibo-42NIL
...

每行将对应一个查询名称字符串,其中的字段对应于结果标识,系统标识,背景文档标识,字符串标识和KB中的实体标识,由\ tab符号分隔。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值