中文实体链接研究多采用NLP&CC-2013或NLP&CC-2014的实验数据来进行实验,故对NLP&CC-2014的中文实体链接任务说明进行总结。
NLPCC 2014 Shared Tasks Guidelines Chinese Entity Linking
目录
1. 概述
2. 任务
3. 数据
4. 评分指标
5. 提交
1.概述
2014年NLPCC实体链接评估的主要目标是评估当前将各种文本资源中的命名实体与参考中文知识库中的实体对齐的技术进步。
2.任务
在此实体链接任务中,每个查询由名称字符串,背景文档和一对UTF-8字符偏移组成,这些偏移指示背景文档中字符串的开始和结束位置。期望EL系统输出查询名称字符串应该引用的知识库条目的ID,或者如果不存在这样的知识库条目则输出NIL标记。此任务中使用的参考知识库是根据2013年Wikipedia转储中文部分的InfoBoxes构建的。
3.数据
本评估中使用的参考知识库包括基于2013年中文维基百科转储的InfoBox的大约400,000个实体。此知识库中的每个实体都将包含名称字符串,KB条目ID以及<subject,predicate,object>形式的一组断言。该参考知识库将在4月底与训练数据集一起提供。
此任务中使用的背景文档集将包括两种不同类型的中文文本资源,微博消息(来自新浪微博)和新闻文章。实体通常出现在具有不同名称变体或不同背景文档的多个查询中。