NLP&CC2014中文实体链接任务说明

最新推荐文章于 2024-06-07 09:53:51 发布

github_39012302

最新推荐文章于 2024-06-07 09:53:51 发布

阅读量2.1k

点赞数

分类专栏：学习文章标签： nlp&cc EL

学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文详细介绍了NLPCC 2014年中文实体链接任务，包括任务概述、数据、评分指标和提交要求。任务旨在评估命名实体与中文知识库的对齐技术，使用基于2013年中文维基百科的InfoBox作为参考知识库，数据集包含微博和新闻文章，评价标准为微平均精度。

摘要由CSDN通过智能技术生成

中文实体链接研究多采用NLP&CC-2013或NLP&CC-2014的实验数据来进行实验，故对NLP&CC-2014的中文实体链接任务说明进行总结。

NLPCC 2014 Shared Tasks Guidelines Chinese Entity Linking

1. 概述

2. 任务

3. 数据

4. 评分指标

5. 提交

1.概述

2014年NLPCC实体链接评估的主要目标是评估当前将各种文本资源中的命名实体与参考中文知识库中的实体对齐的技术进步。
2.任务

在此实体链接任务中，每个查询由名称字符串，背景文档和一对UTF-8字符偏移组成，这些偏移指示背景文档中字符串的开始和结束位置。期望EL系统输出查询名称字符串应该引用的知识库条目的ID，或者如果不存在这样的知识库条目则输出NIL标记。此任务中使用的参考知识库是根据2013年Wikipedia转储中文部分的InfoBoxes构建的。
3.数据
本评估中使用的参考知识库包括基于2013年中文维基百科转储的InfoBox的大约400,000个实体。此知识库中的每个实体都将包含名称字符串，KB条目ID以及<subject，predicate，object>形式的一组断言。该参考知识库将在4月底与训练数据集一起提供。
此任务中使用的背景文档集将包括两种不同类型的中文文本资源，微博消息（来自新浪微博）和新闻文章。实体通常出现在具有不同名称变体或不同背景文档的多个查询中。所有数据集都采用XML格式，采用UTF-8编码。示例查询是：

<weibo id=”1”>
   
   <content >北京时间 3 月 12 日，2013 亚冠联赛小组赛第二轮，广州恒大足球俱乐部客场挑战全北现代，广州恒大首发已经公布。</content>
   
   <name id=”1” >广州恒大足球俱乐部</name>
   <startoffset id=”1” >25</startoffset>
   <endoffset id=”1” >34</endoffset>
   <kb id=”1” >KBxxxx<kb>
   
   <name id=”2” >全北现代</name>
   <startoffset id=”2” >38</startoffset>
   <endoffset id=”2” >42</endoffset>
   <kb id=”2” >KByyyy<kb>
   
   <name id=”3” >广州恒大</name>
   <startoffset id=”3” >43</startoffset>
   <endoffset id=”3” >47</endoffset>
   <kb id=”3” >KBxxxx<kb>
</weibo>

在这个示例中，两个实体指称项“广州恒大足球俱乐部”和“广州恒大”都应该指向相应的知识库中同一个目标实体“EN:WIKI:广州恒大足球俱乐部”。而实体指称项“全北现代”应该指向知识库中的实体“EN:WIKI:全北现代汽车足球俱乐部”。

4.评分指标
对于具有背景文档的一组查询名称字符串，需要EL系统来判断每个查询是否可以链接到参考知识库中的任何条目。我们将在名称字符串中应用微平均精度来评估系统的性能。例如，测试数据中总共有5个名称字符串，一个团队提交了以下系统输出：

Test Instances	System	Output	Gold-Standard Result
wb1_n1	KB1000	KB1000	Correct
wb2_n1	KB1222	KB1222	Correct
wb2_n2	KB2000	KB2000	Correct
wb3_n1	KB3111	KB3111	Correct
wb3_n2	NIL	KB3111	Wrong