TIPSTER数据集介绍，官网编号LDC93T3A、LDC93T3B、LDC93T3C、LDC93T3D

最新推荐文章于 2024-07-24 21:01:17 发布

2401_82807541

最新推荐文章于 2024-07-24 21:01:17 发布

阅读量538

点赞数 21

文章标签：深度学习机器学习语音识别 python 人工智能

本文链接：https://blog.csdn.net/2401_82807541/article/details/140649418

版权

TIPSTER Complete数据集是一个由Linguistic Data Consortium (LDC) 发布的重要语言资源，它主要用于信息检索和语言建模等自然语言处理任务。以下是对TIPSTER Complete数据集的详细介绍：

一、基本信息

名称：TIPSTER Complete
作者：Donna Harman, Mark Liberman
LDC编号：LDC93T3A
ISBN：1-58563-020-9
ISLRN：741-001-210-040-2
DOI：TIPSTER Complete - Linguistic Data Consortium
发布年份：1993年
语言：英语

二、数据来源与背景

TIPSTER Complete数据集是TIPSTER项目的一部分，该项目由高级研究计划局（ARPA/SISTO）的软件和智能系统技术办公室赞助，旨在显著推进有效文档检测（信息检索）和数据提取技术。TIPSTER项目与相关的TREC（Text REtrieval Conference）项目紧密合作，后者有许多其他参与信息检索研究的小组，每年在研讨会上比较结果。

三、数据集内容

TIPSTER Complete数据集包含了完整的测试集合，这些集合由NIST（美国国家标准与技术研究院）为TIPSTER项目和TREC项目构建。数据集分布在三个CD-ROM上，包含SGML编码的文档，以及由NIST提供的查询和答案（相关文档）。这些文档在风格、大小和主题领域上各不相同，具体包括：

第一个CD-ROM：包含来自《华尔街日报》（1986-1989年）、AP Newswire（1989年）、《联邦公报》（1989年）、Computer Select磁盘（Ziff-Davis Publishing）的信息，以及来自美国能源部的简短摘要。
第二个CD-ROM：包含与第一个CD-ROM相同来源但不同年份的信息。
第三个CD-ROM：包含更多来自Computer Select磁盘的信息，以及来自《圣何塞水星报》（1991年）、更多AP Newswire（1990年）的信息，以及约250兆字节的美国专利数据。

四、数据格式与特点

格式：所有文档的格式相对清晰且易于使用，采用SGML-like标签来分隔文档和文档字段。
特点：数据集内容丰富，涵盖了多种文本类型和来源，适合用于训练和评估信息检索和语言建模系统。

五、应用领域

TIPSTER Complete数据集广泛应用于信息检索、自然语言处理、数据挖掘等领域的研究和开发中。它为研究人员提供了一个宝贵的资源，用于开发和评估各种自然语言处理技术和算法。

LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

2401_82807541

关注

21
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
TIPSTER数据集介绍，官网编号LDC93T3A、LDC93T3B、LDC93T3C、LDC93T3D

TIPSTER Complete数据集是一个由Linguistic Data Consortium (LDC) 发布的重要语言资源，它主要用于信息检索和语言建模等自然语言处理任务。
复制链接

扫一扫