ACE 2005，LDC2006T06数据集介绍和获取方式（真实下载地址）

前网易架构师-高司机

已于 2025-03-25 16:08:55 修改

阅读量5k

点赞数 9

分类专栏：深度学习+AI 文章标签： ACE2005 LDC2006T06 数据集语料

于 2023-11-28 11:56:34 首次发布

本文链接：https://blog.csdn.net/pbymw8iwm/article/details/134647891

版权

深度学习+AI 专栏收录该内容

82 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

关于ACE2005数据集

ACE2005数据集是一个用于命名实体识别和关系抽取的英文数据集。它是Automatic Content Extraction (ACE)项目的一部分，旨在推动信息提取系统的发展。由于该数据集非常难得稀缺，基本上网络上找不到，因此我写下这篇文章来分享给更多的人，从而帮助他们能有一个便捷的渠道获取资源的介绍和下载使用。

ACE2005数据集包含来自新闻文本的标注实体和关系的信息，其中实体包括人物、组织、地点等类别，关系则包括人物之间的关系、人物与组织之间的关系等。这些标注的信息可以帮助训练机器学习模型来识别文本中的实体和关系，从而进行自动化的信息提取和知识图谱构建。

The ACE 2005 dataset addresses five primary tasks – the recognition of entities, values, temporal expressions, relations, and events.

ACE2005数据库解决了3项基本的任务——实体识别、值、事件表达式、关系和事件

The dataset is available at the Linguistic Data Consortium. The data is taken from a variety of sources and is available for the tasks in the following languages: Arabic, Chinese and English.

这个数据集可以从语言数据联盟获得. 数据来自多种数据源并可以在如下语言的相关任务中使用

Four versions of each document are provided:

每一个文件都提供了4种版本：

Source text files (.sgm): All source files, including the Chinese files, are encoded in UTF-8.
源文本文件(.sgm):所有源文件，包括中文文件，都用UTF-8编码。

APF files (.apf.xml): The ACE Program Format.
APF文件 (.apf.xml): ACE程序格式

AG files (.ag.xml): The LDC Annotation Graph Format.
AG文件(. AG .xml): LDC注释图格式。

TABLE files (.tab): Files that store mapping tables between the IDs used in each ag.xml file and their corresponding apf.xml file.
表文件(.tab):存储每个ag.xml文件中使用的id与其对应的apf.xml文件id之间的映射表的文件