Linguistic Data-CSDN博客

TIPSTER Complete 数据集是 TIPSTER 项目的一部分，由高级研究计划局（ARPA/SISTO）的软件和智能系统技术办公室赞助，旨在显著推进有效文档检测（信息检索）和数据提取技术。该项目与 TREC（Text REtrieval Conference）项目紧密合作。数据集包含完整的测试集合，由 NIST 为 TIPSTER 项目和 TREC 项目构建，分布在三个 CD-ROM 上，包含 SGML 编码的文档，以及由 NIST 提供的查询和答案。NLP语料共享、LDC语料。

2025-01-01 23:37:01 664

原创 ATIS0 Complete数据集介绍，官网编号LDC93S4A、LDC93S4B、LDC93S4B-2、LDC93S4B-3

ATIS0 Complete 数据集是用于自然语言处理和语音识别研究的重要语料库，以下是其详细介绍。

2025-01-01 23:28:11 443

原创 Resource Management Complete Set 2.0数据集介绍，官网编号LDC93S3A、LDC93S3B、LDC93S3C

Resource Management Complete Set 2.0，即 LDC93S3A，是用于设计和评估连续语音识别系统的 DARPA 资源管理语料库。NLP语料共享、LDC语料。

2025-01-01 23:25:25 591 1

原创 WSJ0-2mix数据集介绍，wsj0数据LDC编号LDC93S6A

NLP语料共享、LDC语料。

2024-11-13 23:20:20 1747 1

原创 PDTB 2.0数据集介绍，官网编号LDC2008T05

PDTB 2.0是由语言资源联盟（LDC）于2008年发布的一个标注数据集，由美国宾夕法尼亚大学、意大利托里诺大学和英国爱丁堡大学联合标注。该数据集对华尔街日报的2159篇文章进行了深入的标注，借鉴了篇章词汇化树型连接语法（D-LTAG）理论和RST思想，标注了40600个显式、隐式、替代词汇化（AltLex）、基于实体一致性关系（EntRel）和没有关系（NoRel）这5大类型的篇章关系。

2024-10-09 11:24:33 693 1

原创 VACE数据集介绍，官网编号LDC2011V01、LDC2011V02、LDC2012V01

这个数据集主要用于探索和开发语音增强技术，特别是通过视觉信息（例如嘴部运动）或视听信息（同时使用音频和视频）来提升语音信号的质量和清晰度。: 数据集结合了视觉信息（如嘴部运动）和音频信息，以便研究如何利用这些信息来改善语音增强的效果。: VACE数据集为研究人员提供了一个用于开发和评估语音增强算法的基准。: 这种类型的数据集在智能语音助手、远程会议系统、语音识别等领域具有广泛的应用潜力。总体来说，VACE数据集为视觉和视听语音增强技术的研究提供了一个重要的资源，促进了在多模态语音处理领域的进步和创新。

2024-07-24 00:36:19 623

原创 TREC数据集介绍，官网编号LDC2000T51、LDC2000T52、LDC2007V01、LDC2010V01

其全称为Text REtrieval Conference（文本检索会议），起初用于评估和比较不同信息检索系统的性能，后来扩展到包括文本分类、问答系统等领域的研究。总体而言，TREC数据集不仅为研究人员提供了一个评估和比较不同系统性能的标准平台，还推动了信息检索和文本理解技术的进步，并在学术界和工业界都有重要影响和应用。这种标准化的评估促进了信息检索和相关领域技术的进步。: TREC数据集不仅用于学术研究，也被广泛应用于工业界的信息检索系统和相关商业应用的开发中，是信息检索和文本理解领域的重要基础资源。

2024-07-24 00:35:01 1366

原创 TRAD数据集介绍，官网编号LDC2018T02、LDC2018T13、LDC2018T17、LDC2018T21

总之，TRAD Parallel Text数据集在机器翻译领域中具有重要的地位，为研究人员提供了一个标准化的基准，用于评估和比较不同机器翻译系统的性能，促进了这一领域的技术进步和创新。这些句子是平行的，即它们在语义和语法上对应相似，但使用不同的语言表达。TRAD Parallel Text数据集是一个用于机器翻译研究的标准数据集，专门用于评估中文到英文（汉英）翻译的性能。: TRAD Parallel Text数据集的使用有助于推动机器翻译技术的研究进展，帮助研究人员探索和开发更高效、更准确的翻译模型。

2024-07-24 00:33:10 282

原创 TIPSTER数据集介绍，官网编号LDC93T3A、LDC93T3B、LDC93T3C、LDC93T3D

TIPSTER Complete数据集是一个由Linguistic Data Consortium (LDC) 发布的重要语言资源，它主要用于信息检索和语言建模等自然语言处理任务。

2024-07-24 00:26:07 761

原创 TERN数据集介绍，官网编号LDC2010T18

ACE Time Normalization (TERN) 2004 English Evaluation Data V1.0 数据集是Linguistic Data Consortium (LDC) 发布的一个特定于时间表达式规范化任务的数据集。

2024-07-24 00:21:00 340

原创 TDT数据集介绍，官网编号LDC98T25、LDC2000T44、LDC2001T58、LDC2005T16、LDC2006T18

全称：根据不同的版本和来源，TDT数据集可能有不同的全称和编号，如TDT 5（NIST 2006 Topic Detection and Tracking (TDT) Pilot Corpus，编号LDC2006T18）等。发布机构：通常由语言数据联盟(Linguistic Data Consortium, LDC)等权威机构发布。用途：主要用于话题检测与跟踪任务的研究和开发，帮助研究人员评估不同算法和模型的性能。

2024-07-24 00:18:26 456

原创 TalkBank数据集介绍，官网编号LDC2005T35、LDC2004V01、LDC2001S16、LDC2004T03、LDC2005S25

创建者：Brian MacWhinney，卡内基梅隆大学目的：为语言学、心理学、认知科学等领域的研究提供数据支持数据类型：包含文本、音频、视频等多种模态的数据。

2024-07-24 00:16:07 1579

原创 TAC KBP数据集介绍，官网编号LDC2017E02、LDC2017E55、LDC2020T18、LDC2019T08、LDC2021T08

TAC KBP数据集是自然语言处理领域中的一个重要资源，主要用于评估系统从文本中抽取实体、关系、事件等信息并构建知识库的能力。这些数据集通常由新闻文章、网络文本等构成，并经过人工标注，包含丰富的实体关系信息。

2024-07-24 00:00:51 983

原创 SemEval数据集介绍，官网编号LDC2011T01、LDC2016T10

SemEval数据集是自然语言处理领域中的一个重要数据集，主要用于评估语义分析相关任务的性能。

2024-07-23 23:39:40 1300

原创 NIST RT（Rich Transcription）数据集介绍，官网编号LDC2007S11、LDC2007S12、LDC2011S06

NIST RT（Rich Transcription）数据集是由美国国家标准与技术研究院（NIST）创建的，旨在评估和推动多种语音处理技术的发展。RT数据集特别关注会议、广播新闻和其他自然语言环境中的语音转录任务。

2024-07-23 23:37:43 527 1

原创 REFLEX-MTE数据集介绍，官网编号LDC2009T11

REFLEX-MTE（Reflex Multilingual Text Embeddings）数据集是为研究和开发多语言文本嵌入和翻译技术而创建的。该数据集专注于提供高质量的多语言文本对，以支持各种自然语言处理任务，特别是多语言环境下的文本表示和机器翻译。

2024-07-23 23:36:49 312

原创 RATS数据集介绍，官网编号LDC2015S02、LDC2017S20、LDC2018S10、LDC2021S08、LDC2024S03

RATS（Robust Automatic Transcription of Speech）数据集是由美国国防高级研究计划局（DARPA）创建的，旨在推动在噪声和干扰环境下的语音识别和说话人识别技术的发展。RATS项目特别关注在恶劣条件下，如无线电传输和噪声背景中，提高语音处理系统的鲁棒性。

2024-07-23 23:36:16 537

原创 NIST MT数据集介绍，官网编号LDC2009T05、LDC2010T10、LDC2010T11、LDC2010T12、LDC2010T14

NIST MT（National Institute of Standards and Technology Machine Translation）数据集是由美国国家标准与技术研究院（NIST）组织的系列机器翻译评估任务中的核心数据集。这些数据集旨在推动机器翻译技术的发展，通过提供标准化的评估框架和高质量的翻译对来比较不同机器翻译系统的性能。

2024-07-23 23:35:42 534

原创 PEA-TRAD数据集介绍，官网编号LDC2018T13、LDC2018T21、LDC2018T02、LDC2018T17

PEA-TRAD（Parallel Electronic Annotated Translation）数据集是专门为研究和开发机器翻译、语言对比研究及相关语言技术的资源。该数据集通常包含平行语料，即同一文本的不同语言版本，配有详细的标注，以支持多种语言处理任务。

2024-07-23 23:34:58 591

原创 OpenHaRT数据集介绍，官网编号LDC2012T15、LDC2013T09、LDC2013T15

OpenHaRT（Open Handwriting Recognition and Translation）数据集是由美国国家标准与技术研究院（NIST）组织的，旨在推动手写文字识别和翻译技术的发展。该数据集特别关注各种手写体的识别和处理，涵盖了不同的语言和书写风格。

2024-07-23 23:34:09 393

原创 NIST OpenSAT数据集介绍，官网编号LDC2022S01、LDC2023S06

NIST OpenSAT（Open Speech Analytic Technologies）数据集是由美国国家标准与技术研究院（NIST）创建的，旨在推动和评估语音分析技术的发展。这些数据集支持多种语音处理任务，包括语音识别、说话人识别、情感识别等。

2024-07-23 23:33:32 457

原创 NIST MT数据集介绍，官网编号LDC2010T17、LDC2010T21、LDC2013T07、LDC2010T23、LDC2013T03、LDC2014T02

NIST MT（National Institute of Standards and Technology Machine Translation）数据集是由美国国家标准与技术研究院（NIST）组织的系列机器翻译评估任务中的核心数据集。这些数据集旨在推动机器翻译技术的发展，通过提供标准化的评估框架和高质量的翻译对来比较不同机器翻译系统的性能。

2024-07-23 23:33:01 479

原创 Message Understanding Conference数据集介绍，官网编号LDC2003T13、LDC96T10、LDC2001T02、LDC2010T15

MUC（Message Understanding Conference）数据集是由DARPA（美国国防高级研究计划局）赞助的系列信息提取评估任务中的核心数据集。MUC系列会议旨在推动和评估信息提取（IE）技术的发展，特别是从非结构化文本中提取结构化信息的能力。

2024-07-23 23:32:21 481

原创 MT08数据集介绍，官网编号LDC2010T01

MT08（NIST 2008 Open Machine Translation Evaluation Campaign）数据集是由美国国家标准与技术研究院（NIST）组织的机器翻译评估任务中的一个重要数据集。该数据集旨在评估和推动机器翻译技术的发展，特别是在翻译质量和多语言处理方面的进步。

2024-07-23 23:31:35 580

原创 MIXER数据集介绍，官网编号LDC2023S02、LDC2020S03、LDC2013S03、LDC2023S04

MIXER（Multiple Iterative eXtraction for Effective Retrieval）数据集是一个专门设计用于研究多轮对话系统的自然语言处理（NLP）数据集。该数据集由语言技术研究所（LTI）开发，旨在支持多轮问答、对话生成和信息提取等任务。

2024-07-23 23:31:00 473

原创 MALACH数据集介绍，官网编号LDC2012S05、LDC2014S04、LDC2019S11

MALACH（Multilingual Access to Large Spoken ArCHives）数据集是一个重要的多语言语音档案数据集，旨在支持语音识别、自然语言处理（NLP）和口述历史研究。该项目由卡内基梅隆大学（CMU）、约翰斯·霍普金斯大学（JHU）及其他合作机构开发，提供了大量的口述历史语音数据，尤其是涉及第二次世界大战和大屠杀的幸存者证词。

2024-07-23 23:28:02 197

空空如也

空空如也