TIPSTER Complete数据集是一个由Linguistic Data Consortium (LDC) 发布的重要语言资源,它主要用于信息检索和语言建模等自然语言处理任务。以下是对TIPSTER Complete数据集的详细介绍:
一、基本信息
- 名称:TIPSTER Complete
- 作者:Donna Harman, Mark Liberman
- LDC编号:LDC93T3A
- ISBN:1-58563-020-9
- ISLRN:741-001-210-040-2
- DOI:TIPSTER Complete - Linguistic Data Consortium
- 发布年份:1993年
- 语言:英语
二、数据来源与背景
TIPSTER Complete数据集是TIPSTER项目的一部分,该项目由高级研究计划局(ARPA/SISTO)的软件和智能系统技术办公室赞助,旨在显著推进有效文档检测(信息检索)和数据提取技术。TIPSTER项目与相关的TREC(Text REtrieval Conference)项目紧密合作,后者有许多其他参与信息检索研究的小组,每年在研讨会上比较结果。
三、数据集内容
TIPSTER Complete数据集包含了完整的测试集合,这些集合由NIST(美国国家标准与技术研究院)为TIPSTER项目和TREC项目构建。数据集分布在三个CD-ROM上,包含SGML编码的文档,以及由NIST提供的查询和答案(相关文档)。这些文档在风格、大小和主题领域上各不相同,具体包括:
- 第一个CD-ROM:包含来自《华尔街日报》(1986-1989年)、AP Newswire(1989年)、《联邦公报》(1989年)、Computer Select磁盘(Ziff-Davis Publishing)的信息,以及来自美国能源部的简短摘要。
- 第二个CD-ROM:包含与第一个CD-ROM相同来源但不同年份的信息。
- 第三个CD-ROM:包含更多来自Computer Select磁盘的信息,以及来自《圣何塞水星报》(1991年)、更多AP Newswire(1990年)的信息,以及约250兆字节的美国专利数据。
四、数据格式与特点
- 格式:所有文档的格式相对清晰且易于使用,采用SGML-like标签来分隔文档和文档字段。
- 特点:数据集内容丰富,涵盖了多种文本类型和来源,适合用于训练和评估信息检索和语言建模系统。
五、应用领域
TIPSTER Complete数据集广泛应用于信息检索、自然语言处理、数据挖掘等领域的研究和开发中。它为研究人员提供了一个宝贵的资源,用于开发和评估各种自然语言处理技术和算法。
LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg