TIPSTER数据集介绍,官网编号LDC93T3A、LDC93T3B、LDC93T3C、LDC93T3D

TIPSTER Complete数据集是一个由Linguistic Data Consortium (LDC) 发布的重要语言资源,它主要用于信息检索和语言建模等自然语言处理任务。以下是对TIPSTER Complete数据集的详细介绍:

一、基本信息

二、数据来源与背景

TIPSTER Complete数据集是TIPSTER项目的一部分,该项目由高级研究计划局(ARPA/SISTO)的软件和智能系统技术办公室赞助,旨在显著推进有效文档检测(信息检索)和数据提取技术。TIPSTER项目与相关的TREC(Text REtrieval Conference)项目紧密合作,后者有许多其他参与信息检索研究的小组,每年在研讨会上比较结果。

三、数据集内容

TIPSTER Complete数据集包含了完整的测试集合,这些集合由NIST(美国国家标准与技术研究院)为TIPSTER项目和TREC项目构建。数据集分布在三个CD-ROM上,包含SGML编码的文档,以及由NIST提供的查询和答案(相关文档)。这些文档在风格、大小和主题领域上各不相同,具体包括:

  • 第一个CD-ROM:包含来自《华尔街日报》(1986-1989年)、AP Newswire(1989年)、《联邦公报》(1989年)、Computer Select磁盘(Ziff-Davis Publishing)的信息,以及来自美国能源部的简短摘要。
  • 第二个CD-ROM:包含与第一个CD-ROM相同来源但不同年份的信息。
  • 第三个CD-ROM:包含更多来自Computer Select磁盘的信息,以及来自《圣何塞水星报》(1991年)、更多AP Newswire(1990年)的信息,以及约250兆字节的美国专利数据。

四、数据格式与特点

  • 格式:所有文档的格式相对清晰且易于使用,采用SGML-like标签来分隔文档和文档字段。
  • 特点:数据集内容丰富,涵盖了多种文本类型和来源,适合用于训练和评估信息检索和语言建模系统。

五、应用领域

TIPSTER Complete数据集广泛应用于信息检索、自然语言处理、数据挖掘等领域的研究和开发中。它为研究人员提供了一个宝贵的资源,用于开发和评估各种自然语言处理技术和算法。

LDC语料小助手icon-default.png?t=N7T8https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

 

  • 21
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值