ace2005数据集_ace2005数据集,ace2005语料库介绍

ACE2005数据库解决了3项基本的任务——实体识别、值、事件表达式、关系和事件

The dataset is available at the Linguistic Data Consortium. The data is taken from a variety of sources and is available for the tasks in the following languages: Arabic, Chinese and English.

这个数据集可以从语言数据联盟获得. 数据来自多种数据源并可以在如下语言的相关任务中使用

Four versions of each document are provided:

每一个文件都提供了4种版本:

Source text files (.sgm): All source files, including the Chinese files, are encoded in UTF-8.

源文本文件(.sgm):所有源文件,包括中文文件,都用UTF-8编码。

APF files (.): The ACE Program Format.

APF文件 (.): ACE程序格式

AG files (.): The LDC Annotation Graph Format.

AG文件(. AG .xml): LDC注释图格式。

TABLE files (.tab): Files that store mapping tables between the IDs used in each file and their corresponding file.

表文件(.tab):存储每个文件中使用的id与其对应的文件id之间的映射表的文件

The detailed statistics for the training portion of this corpus are as follows:

本预料中训练集部分的详细统计如下:

LDC2005E18发布版本的2005 ACE训练语料统计。

源 训练数据时间 估算大小

英文资源

广播新闻 3/03-6/03 60000词

广播对话 3/03-6/03 45000词

新闻专线 3/03-6/03 60000词

微博 3/03-6/03 45000词

网络新闻 11/04-2/05 45000词

对话、电话、讲话 11/04-12/04(根据主题等区分) 45000词

阿拉伯语资源

广播新闻 10/00-12/00 60000词

新闻专线 10/00-12/00 60000词

微博 11/04-2/05 30000词

中文资源(字符=1个词)

广播新闻 10/00-12/00 120000词

新闻专线 10/00-12/00 120000词

微博 11/04-2/05 60000词

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值