ACE2004(Automatic Content Extraction)数据集是一个用于信息抽取和实体关系识别研究的数据集。它是美国国家情报总监办公室(Office of the Director of National Intelligence)赞助的一个项目的一部分。
ACE2004数据集的目标是从新闻文章中抽取出实体和实体关系,以帮助机器理解文本中的信息和关系。该数据集主要基于英语新闻文章,涵盖了各种主题,包括政治、经济、军事等。
ACE2004数据集提供了大约500多篇新闻文章,其中包含了对应的实体标注和实体关系标注。实体标注指定了文章中的具体实体,如人物、组织、地点等。实体关系标注指定了这些实体之间的关系,如就业关系、成立关系等。
除了实体和实体关系标注,ACE2004数据集还提供了其他信息,如文章的元数据、核心指称(coreference)信息等。核心指称是指在文章中引用同一个实体的不同表述。这些附加信息可以帮助研究人员进行更深入的分析和研究。
ACE2004数据集在信息抽取和实体关系识别研究中非常有用,可以用于训练和评估自动信息抽取和关系识别系统的性能。它提供了一个具有挑战性的任务,要求系统能够从文本中准确地提取实体和识别实体之间的关系。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复ACE2004 LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg