TDT 5是由语言数据联盟(Linguistic Data Consortium, LDC)发布的一个数据集,全称为 "NIST 2006 Topic Detection and Tracking (TDT) Pilot Corpus"。这个数据集主要用于主题检测和跟踪(Topic Detection and Tracking, TDT)任务的研究和开发。
TDT 是一个自然语言处理任务,旨在自动识别和跟踪文本流(如新闻报道、社交媒体帖子等)中的主题。在 LDC2006T18 数据集中,文本流通常被组织成一系列的故事(stories),每个故事都与一个或多个主题相关联。
这个数据集包含了从多个来源(如新闻网站、通讯社等)收集的文本数据,并进行了详细的标注。标注通常包括故事的边界、故事的主题标签、以及可能的其他元数据。这些数据使得研究人员能够开发算法和模型来自动检测文本中的主题,并跟踪这些主题随时间的发展。
LDC2006T18 数据集在 TDT 研究领域具有广泛的影响,因为它提供了一个标准化和可比较的基准数据集,用于评估不同算法和模型的性能。许多研究人员和开发者都使用这个数据集来开发新的 TDT 技术,并将其应用于各种实际场景中,如新闻分析、社交媒体监控等。其文件结构如下:
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复TDT5LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg