LDC语料小助手-CSDN博客

原创 LORELEI数据集介绍，官网编号LDC2018T04、LDC2020T10、LDC2022T03、LDC2023T07、LDC2024T01

LORELEI（Low Resource Languages for Emergent Incidents）数据集是由美国国防高级研究计划局（DARPA）发起的一个项目，旨在为低资源语言（即缺乏大量数据和研究资源的语言）提供数据支持，特别是应对紧急事件和危机管理的需求。该数据集包含多种低资源语言的文本和语音数据，旨在提高自然语言处理（NLP）系统在这些语言上的性能。

2024-07-21 20:33:15 1782

原创 Linguistic Atlas Project数据集介绍，官网编号LDC2012S03、LDC2016S05

Linguistic Atlas Project（LAP）数据集是一个重要的语言学资源，主要用于研究方言、语言变体和语言变化。该项目通过对不同地域的语言使用情况进行详细记录和分析，为语言学研究提供了丰富的数据支持。

2024-07-21 20:28:34 604

原创 LID数据集介绍，官网编号LDC96S50、LDC96S51、LDC96S52、LDC96S53、LDC96S54、LDC96S60

LID（Language Identification）数据集是专门用于语言识别任务的数据集，旨在帮助开发和评估自动语言识别系统。这些系统的主要任务是从音频或文本中识别出所使用的语言。LID数据集包含了各种语言的音频样本，是研究多语言环境下语音处理技术的重要资源。

2024-07-21 20:24:08 1801

原创 Hub5-LVCSR数据集介绍，官网编号LDC2002S09、LDC2002S23、LDC2002S12、LDC2018S18

Hub5-LVCSR（Large Vocabulary Continuous Speech Recognition）数据集是一个著名的语音识别数据集，专门用于大词汇量连续语音识别系统的开发和评估。该数据集也是由美国国家标准技术研究院（NIST）组织和发布的，主要用于推动大词汇量语音识别技术的发展。

2024-07-21 20:19:58 324

原创 Hub4数据集介绍，官网编号LDC96S31、LDC97S66、LDC2000S86、LDC2000S88

Hub4数据集是一个著名的语音识别和语音处理数据集，主要用于开发和评估自动语音识别（ASR）系统。该数据集由美国国家标准技术研究院（NIST）组织收集和发布，旨在推动语音识别技术的发展。

2024-07-21 20:15:54 392

原创 HAVIC数据集介绍，官网编号LDC2016V01、LDC2018V01、LDC2020V01、LDC2022V01

HAVIC（Heterogeneous Audio Visual Internet Collection）数据集是一个大规模的多模态数据集，主要用于多媒体检索、音视频内容分析以及机器学习等研究领域。该数据集由多个类型的视频和音频文件组成，涵盖了不同的场景和活动，旨在为研究人员提供丰富多样的素材，以进行复杂的音视频分析任务。

2024-07-21 20:12:21 568

原创 GALE(Global Autonomous Language Exploitation)数据集介绍，官网编号LDC2016S03、LDC2017S02、LDC2017S15、LDC2017S15

GALE项目的目标是通过自动处理和理解多语言文本，实现信息的快速提取和利用。：数据集包含多种类型的文本数据，包括新闻文章、广播节目转录、网络文本等，覆盖广泛的话题和领域。：GALE数据集带有详细的标注信息，包括文本的分段、对齐、翻译、命名实体识别、句法分析等。GALE数据集的推出和应用，有助于推进多语言自然语言处理技术的发展，为构建能够在全球范围内理解和处理多种语言的自动系统提供了坚实的基础。：作为多语言数据集的一部分，GALE数据集包含高质量的翻译文本，有助于提高机器翻译系统的性能和准确性。

2024-07-21 20:09:00 565

原创 DIRHA English WSJ Audio数据集介绍，官网编号LDC2018S01

DIRHA（Distant-speech Interaction for Robust Home Applications）English WSJ Audio数据集是一个用于研究和开发远场语音识别系统的音频数据集。该数据集由DIRHA项目生成，主要目标是改善在家庭环境中的语音识别和语音交互技术。它特别适用于训练和评估在复杂声学环境中的远场语音识别模型。

2024-07-21 20:00:33 416

原创 DEFT数据集介绍，官网编号LDC2016T07、LDC2016T23、LDC2018T01、LDC2020T19、LDC2023T04

DEFT（Deep Exploration and Filtering of Text）数据集是由美国国防高级研究计划局（DARPA）资助的项目生成的，该项目旨在提高文本分析和信息提取技术。DEFT数据集主要用于推动自然语言处理（NLP）领域，特别是文本挖掘、信息提取和自然语言理解的研究和发展。

2024-07-21 19:58:41 355

原创 Communicator数据集介绍，官网编号LDC2002S56、LDC2003S01、LDC2004T15、LDC2004T16

Communicator数据集是一个专门为研究对话系统和自然语言处理而创建的资源。该数据集源自DARPA（美国国防高级研究计划局）资助的Communicator项目，旨在推动对话系统的发展，特别是那些能够在多轮交互中提供有效和自然交流的系统。

2024-07-21 19:53:36 435

原创 CAMIO数据集介绍，官网编号LDC2022T07

CAMIO（Crosslingual Automatic Machine Translation of Image-Oriented content）数据集是专门用于研究和开发多语言图像内容自动翻译技术的数据集。该数据集的主要目标是通过图像和相关文本的数据，促进跨语言图像描述、翻译和检索系统的发展。

2024-07-21 19:49:16 596

原创 BOLT数据集介绍，官网编号LDC2016T05、LDC2017T11、LDC2018T10、LDC2018T18

BOLT（Broad Operational Language Translation）数据集是由DARPA（美国国防高级研究计划局）资助的一项计划生成的，该计划旨在通过先进的自然语言处理技术提升计算机理解和翻译不同语言文本的能力。BOLT数据集的主要目标是支持多语言的机器翻译、自动内容挖掘和对话系统的开发。

2024-07-21 19:43:39 344

原创 AQUAINT数据集介绍，官网编号LDC2008T25、LDC2005T33

AQUAINT数据集，全称为AQUAINT Corpus of English News Text，是一个主要用于文本摘要任务的英语新闻文本数据集。

2024-07-21 19:34:33 365

原创 American National Corpus数据集介绍，官网编号LDC2005T35、LDC2010T22、LDC2013T12

American National Corpus（ANC）数据集是一个大规模、经过平衡的英文语料库，旨在代表当今美国英语的多样性。

2024-07-21 19:29:57 673

原创 AIDA数据集介绍，官网编号LDC2023S01、LDC2023T10、LDC2023T11、LDC2024T02、LDC2024T04、LDC2024T06

Automatic Identification and Disambiguation是NLP领域中的两个重要任务，它们分别负责从文本中自动识别和提取出特定类型的信息或实体，并解决命名实体的歧义问题。这两个任务在多个领域都有广泛的应用，对于提高信息提取和理解的准确性具有重要意义。随着NLP技术的不断发展，自动识别和消歧技术也在不断进步和完善，为各种应用场景提供了更加准确和高效的解决方案。NLP语料共享、LDC语料t=N7T8。

2024-07-21 13:11:58 910

原创 YOHO Speaker Verification数据集介绍，官网编号LDC94S16

YOHO Speaker Verification数据集是一个专门用于支持文本依赖型说话人认证研究的大型、高质量语音语料库。

2024-07-18 16:27:46 315

原创 VAHA (POLYPHONE II)数据集介绍，官网编号LDC96S41

VAHA (POLYPHONE II)很可能是POLYPHONE项目的一个扩展或后续版本，该项目旨在收集世界上主要语言的电话语音数据。

2024-07-18 16:24:27 353

原创 PhoneBook: NYNEX Isolated Words数据集介绍，官网编号LDC95S27

NLP语料共享、LDC语料。

2024-07-18 16:22:34 312

原创 MACROPHONE数据集介绍，官网编号LDC94S21

NLP语料共享、LDC语料。

2024-07-18 16:20:01 418

原创 Levantine Arabic QT Training Data Set 5, Speech数据集介绍，官网编号LDC2006S29、LDC2006T07

NLP语料共享、LDC语料。

2024-07-18 16:16:19 627

原创 Fisher Levantine Arabic Conversational Telephone Speech数据集介绍，官网编号LDC2007S02、LDC2007T04

NLP语料共享、LDC语料。

2024-07-18 16:14:00 730

原创 2004 Spring NIST Rich Transcription (RT-04S) 数据集介绍，官网编号LDC2007S11、LDC2007S12

2004 Spring NIST Rich Transcription (RT-04S)数据集是NIST（美国国家标准和技术研究院）在2004年春季举办的一次丰富转录（Rich Transcription, RT）评测活动中所使用的开发数据集。该数据集旨在支持语音识别、说话人识别、话语分析等相关领域的研究与开发。

2024-07-18 16:11:11 391

原创 NIST Meeting Pilot Corpus Speech数据集介绍，官网编号LDC2004S09、LDC2004T13

NIST Meeting Pilot Corpus Speech数据集是一个专注于会议场景的语音数据集，由NIST（美国国家标准和技术研究院）或其合作机构发布，通常作为语音识别、语音转文本（Speech-to-Text, STT）、对话系统（Dialog Systems）以及更广泛的语音和自然语言处理（NLP）任务研究的重要资源。

2024-07-18 16:08:15 349

原创 ISL Meeting Speech Part 1数据集介绍，官网编号LDC2004S05、LDC2004T10

ISL Meeting Speech Part 1数据集是Linguistic Data Consortium (LDC)提供的一个重要语音数据集，主要用于支持语音识别、语音转文本、对话系统以及更广泛的语音和自然语言处理（NLP）任务的研究。

2024-07-18 16:05:56 416

原创 AISHELL-1数据集介绍，官网编号LDC2018T14

AISHELL-1数据集是专为中文语音识别技术研发设计的一个开源数据集，它在AI和语音处理领域中有着广泛的应用。

2024-07-18 15:56:54 2325

原创 Fisher Spanish数据集介绍，官网编号LDC2010S01、LDC2010T04

Fisher Spanish数据集是一个重要的语音数据集，主要用于支持语音识别和语言理解等任务的研究。

2024-07-18 15:50:20 461

原创 BLLIP North American News Text, Complete数据集介绍，官网编号LDC2008T13

BLLIP North American News Text, Complete 是一个由Linguistic Data Consortium (LDC) 发布的语言数据集，它包含了来自北美多家知名新闻媒体的文本内容。

2024-07-15 15:46:38 814

原创 NIST SRE数据集介绍，官网编号LDC2002S34、LDC2004S04、LDC2010S03、LDC2006S44

NIST SRE数据集，全称为NIST Speaker Recognition Evaluation数据集，是由美国国家标准与技术研究院（NIST）定期组织的一系列声纹识别技术评测活动中所使用的数据集。NIST SRE 2018及之后：评测了更先进的声纹识别技术，包括基于神经网络的方法，增加了对音频和视频融合（Audio-Visual）的声纹识别评估。NIST SRE 1996：首次举办的NIST SRE，为后续的评测奠定了基础，主要评估了电话语音中的声纹识别技术，并引入了新的数据集和评测指标。

2024-07-14 23:28:05 480

原创 NIST LRE数据集介绍，官网编号LDC2006S31、LDC2008S05、LDC2009S04、LDC2009S05、LDC2014S06、LDC2018S06

NIST LRE数据集，全称为NIST Language Recognition Evaluation数据集，是由美国国家标准与技术研究院（NIST）主办的一系列语言识别技术评测活动中所使用的数据集。这些评测活动旨在评估语言识别系统的性能，并推动该领域的研究和应用。

2024-07-14 23:25:30 475

原创 NIST SRE数据集介绍，官网编号LDC2011S09、LDC2011S10、LDC2011S11、LDC2012S01

NIST SRE数据集，全称为NIST Speaker Recognition Evaluation数据集，是由美国国家标准与技术研究院（NIST）定期组织的一系列声纹识别技术评测活动中所使用的数据集。NIST SRE 2018及之后：评测了更先进的声纹识别技术，包括基于神经网络的方法，增加了对音频和视频融合（Audio-Visual）的声纹识别评估。NIST SRE 1996：首次举办的NIST SRE，为后续的评测奠定了基础，主要评估了电话语音中的声纹识别技术，并引入了新的数据集和评测指标。

2024-07-14 23:18:02 464

原创 NIST SRE数据集介绍，官网编号LDC2011S01、LDC2011S04、LDC2011S07、LDC2011S08

NIST SRE数据集，全称为NIST Speaker Recognition Evaluation数据集，是由美国国家标准与技术研究院（NIST）定期组织的一系列声纹识别技术评测活动中所使用的数据集。这些评测活动旨在评估声纹识别技术的最新进展，并推动该领域的研究和应用。

2024-07-14 23:16:35 420

原创 NIST SRE数据集介绍，官网编号LDC2017S06、LDC2019S20、LDC2020S04、LDC2023S03、LDC2023V01

NIST SRE数据集，全称为NIST Speaker Recognition Evaluation数据集，是由美国国家标准与技术研究院（NIST）定期组织的一系列声纹识别技术评测活动中所使用的数据集。这些评测活动旨在评估声纹识别技术的最新进展，并推动该领域的研究和应用。

2024-07-14 23:13:01 551

原创 Mixer 6 Speech数据集介绍，官网编号LDC2013S03

Mixer 6 Speech数据集是一个由Linguistic Data Consortium (LDC)开发和维护的语音数据集，主要用于语音、说话人识别和语言识别等研究领域。

2024-07-12 00:52:09 506

原创 IARPA Babel数据集介绍，官网编号LDC2016S09、LDC2017S02、LDC2020S02、LDC2019S16

通过收集多样化的语音和文本数据，该项目为研究人员提供了宝贵的资源，使他们能够更深入地了解不同语言的特性和结构，并开发出更加精准、灵活的语音识别和机器翻译技术。这个项目通过收集和提供多种语言（包括非传统语言和方言）的语音和文本数据，支持研究人员开发更先进的语音识别和机器翻译系统。请注意，由于该项目涉及到敏感技术和数据，因此具体的实现细节和成果可能无法公开披露。不过，从公开的报道和研究成果来看，IARPA Babel项目已经取得了显著的进展，为语音识别和机器翻译领域的发展做出了重要贡献。

2024-06-19 16:22:30 221

2401_82807501的博客

原创 LORELEI数据集介绍，官网编号LDC2018T04、LDC2020T10、LDC2022T03、LDC2023T07、LDC2024T01

原创 Linguistic Atlas Project数据集介绍，官网编号LDC2012S03、LDC2016S05

原创 LID数据集介绍，官网编号LDC96S50、LDC96S51、LDC96S52、LDC96S53、LDC96S54、LDC96S60

原创 Hub5-LVCSR数据集介绍，官网编号LDC2002S09、LDC2002S23、LDC2002S12、LDC2018S18

原创 Hub4数据集介绍，官网编号LDC96S31、LDC97S66、LDC2000S86、LDC2000S88

原创 HAVIC数据集介绍，官网编号LDC2016V01、LDC2018V01、LDC2020V01、LDC2022V01

原创 GALE(Global Autonomous Language Exploitation)数据集介绍，官网编号LDC2016S03、LDC2017S02、LDC2017S15、LDC2017S15

原创 DIRHA English WSJ Audio数据集介绍，官网编号LDC2018S01

原创 DEFT数据集介绍，官网编号LDC2016T07、LDC2016T23、LDC2018T01、LDC2020T19、LDC2023T04

原创 Communicator数据集介绍，官网编号LDC2002S56、LDC2003S01、LDC2004T15、LDC2004T16

原创 CAMIO数据集介绍，官网编号LDC2022T07

原创 BOLT数据集介绍，官网编号LDC2016T05、LDC2017T11、LDC2018T10、LDC2018T18

原创 AQUAINT数据集介绍，官网编号LDC2008T25、LDC2005T33

原创 American National Corpus数据集介绍，官网编号LDC2005T35、LDC2010T22、LDC2013T12

原创 AIDA数据集介绍，官网编号LDC2023S01、LDC2023T10、LDC2023T11、LDC2024T02、LDC2024T04、LDC2024T06

原创 YOHO Speaker Verification数据集介绍，官网编号LDC94S16

原创 VAHA (POLYPHONE II)数据集介绍，官网编号LDC96S41

原创 PhoneBook: NYNEX Isolated Words数据集介绍，官网编号LDC95S27

原创 MACROPHONE数据集介绍，官网编号LDC94S21

原创 Levantine Arabic QT Training Data Set 5, Speech数据集介绍，官网编号LDC2006S29、LDC2006T07

原创 Fisher Levantine Arabic Conversational Telephone Speech数据集介绍，官网编号LDC2007S02、LDC2007T04

原创 2004 Spring NIST Rich Transcription (RT-04S) 数据集介绍，官网编号LDC2007S11、LDC2007S12

原创 NIST Meeting Pilot Corpus Speech数据集介绍，官网编号LDC2004S09、LDC2004T13

原创 ISL Meeting Speech Part 1数据集介绍，官网编号LDC2004S05、LDC2004T10

原创 AISHELL-1数据集介绍，官网编号LDC2018T14

原创 Fisher Spanish数据集介绍，官网编号LDC2010S01、LDC2010T04

原创 BLLIP North American News Text, Complete数据集介绍，官网编号LDC2008T13

原创 NIST SRE数据集介绍，官网编号LDC2002S34、LDC2004S04、LDC2010S03、LDC2006S44

原创 NIST LRE数据集介绍，官网编号LDC2006S31、LDC2008S05、LDC2009S04、LDC2009S05、LDC2014S06、LDC2018S06

原创 NIST SRE数据集介绍，官网编号LDC2011S09、LDC2011S10、LDC2011S11、LDC2012S01

原创 NIST SRE数据集介绍，官网编号LDC2011S01、LDC2011S04、LDC2011S07、LDC2011S08

原创 NIST SRE数据集介绍，官网编号LDC2017S06、LDC2019S20、LDC2020S04、LDC2023S03、LDC2023V01

原创 Mixer 6 Speech数据集介绍，官网编号LDC2013S03

原创 IARPA Babel数据集介绍，官网编号LDC2016S09、LDC2017S02、LDC2020S02、LDC2019S16

空空如也

空空如也