中文实体链接研究多采用NLP&CC-2013或NLP&CC-2014的实验数据来进行实验,故对NLP&CC-2014的中文实体链接任务说明进行总结。
NLPCC 2014 Shared Tasks Guidelines Chinese Entity Linking
目录
1. 概述
2. 任务
3. 数据
4. 评分指标
5. 提交
1.概述
2014年NLPCC实体链接评估的主要目标是评估当前将各种文本资源中的命名实体与参考中文知识库中的实体对齐的技术进步。
2.任务
在此实体链接任务中,每个查询由名称字符串,背景文档和一对UTF-8字符偏移组成,这些偏移指示背景文档中字符串的开始和结束位置。期望EL系统输出查询名称字符串应该引用的知识库条目的ID,或者如果不存在这样的知识库条目则输出NIL标记。此任务中使用的参考知识库是根据2013年Wikipedia转储中文部分的InfoBoxes构建的。
3.数据
本评估中使用的参考知识库包括基于2013年中文维基百科转储的InfoBox的大约400,000个实体。此知识库中的每个实体都将包含名称字符串,KB条目ID以及<subject,predicate,object>形式的一组断言。该参考知识库将在4月底与训练数据集一起提供。
此任务中使用的背景文档集将包括两种不同类型的中文文本资源,微博消息(来自新浪微博)和新闻文章。实体通常出现在具有不同名称变体或不同背景文档的多个查询中。所有数据集都采用XML格式,采用UTF-8编码。示例查询是:
<weibo id=”1”>
<content >北京时间 3 月 12 日,2013 亚冠联赛小组赛第二轮,广州恒大足球俱乐部客场挑战全北现代,广州恒大首发已经公布。</content>
<name id=”1” >广州恒大足球俱乐部</name>
<startoffset id=”1” >25</startoffset>
<endoffset id=”1” >34</endoffset>
<kb id=”1” >KBxxxx<kb>
<name id=”2” >全北现代</name>
<startoffset id=”2” >38</startoffset>
<endoffset id=”2” >42</endoffset>
<kb id=”2” >KByyyy<kb>
<name id=”3” >广州恒大</name>
<startoffset id=”3” >43</startoffset>
<endoffset id=”3” >47</endoffset>
<kb id=”3” >KBxxxx<kb>
</weibo>
在这个示例中,两个实体指称项“广州恒大足球俱乐部”和“广州恒大”都应该指向相应的知识库中同一个目标实体“EN:WIKI:广州恒大足球俱乐部”。而实体指称项“全北现代”应该指向知识库中的实体“EN:WIKI:全北现代汽车足球俱乐部”。
4.评分指标
对于具有背景文档的一组查询名称字符串,需要EL系统来判断每个查询是否可以链接到参考知识库中的任何条目。我们将在名称字符串中应用微平均精度来评估系统的性能。例如,测试数据中总共有5个名称字符串,一个团队提交了以下系统输出:
Test Instances | System | Output | Gold-Standard Result |
wb1_n1 | KB1000 | KB1000 | Correct |
wb2_n1 | KB1222 | KB1222 | Correct |
wb2_n2 | KB2000 | KB2000 | Correct |
wb3_n1 | KB3111 | KB3111 | Correct |
wb3_n2 | NIL | KB3111 | Wrong |
则此提交的平均准确度将为4/5 = 0.8
5.提交
每个团队只允许提交一份提交文件,其规格如下:
form:
id | system-id | doc-id | name-id | KB-id |
1 | TeamABC | weibo-1 | 1 | KBWKxxxxx |
2 | TeamABC | weibo-2 | 1 | KBWKxxxxx |
3 | TeamABC | weibo-4 | 2 | NIL |
... |
每行将对应一个查询名称字符串,其中的字段对应于结果标识,系统标识,背景文档标识,字符串标识和KB中的实体标识,由\ tab符号分隔。