- 博客(43)
- 收藏
- 关注
原创 Gulf Arabic Conversational Telephone Speech & Transcripts数据集介绍,官网编号LDC2006S43、LDC2006T15
Gulf Arabic Conversational Telephone Speech(LDC2006S43)是 LDC 于 2006 年发布的海湾阿拉伯语电话会话语音数据集,核心用于海湾阿拉伯语方言的语音识别(ASR)、说话人识别及口语理解模型训练,包含约 46 小时自发电话会话语音与文本转录,适配真实电话信道下的方言语音技术研发。
2026-01-14 11:28:01
344
1
原创 Korean Broadcast News Speech数据集介绍,官网编号LDC2006S42
Korean Broadcast News Speech 是由 LDC 于 2006 年发布的韩语广播新闻语音数据集(编号 LDC2006S42),核心用于韩语广播新闻语音识别(ASR)、大词汇连续语音识别(LVCSR)及声学 / 语言模型训练,包含锚定与记者的新闻播报语音及文本转录标注,适配开放域新闻场景的语音技术研发。
2026-01-14 11:23:15
331
1
原创 CSLU: Names Release 1.3数据集介绍,官网编号LDC2006S39
CSLU: Names Release 1.3 是由俄勒冈健康与科学大学口语理解中心(CSLU)构建、LDC 于 2009 年发布的英文姓名语音数据集(编号 LDC2006S39),核心用于姓名语音识别(ASR)、发音词典生成与说话人验证系统研发,包含大规模孤立姓名朗读语音及文本、发音标注,适配人名识别与口语交互场景的模型训练与评测。
2026-01-14 11:15:41
541
1
原创 West Point Heroico Spanish Speech数据集介绍,官网编号LDC2006S37
West Point Heroico Spanish Speech 是由美国西点军校(USMA)外语系与技术强化语言学习中心(CTELL)联合墨西哥军事学院(Heroico Colegio Militar)构建、LDC 于 2006 年发布的西班牙语语音数据集(编号 LDC2006S37),核心用于西班牙语语音识别(ASR)、发音建模与语言学习应用开发,包含母语者与非母语者的朗读及提示语音与文本标注,适配军用与教育领域的语音技术研发。
2026-01-14 11:11:57
542
1
原创 HARD 2004 Text数据集介绍,官网编号LDC2005T28
HARD 2004 Text(LDC2005T28)是 DARPA HARD 项目下的英文文本摘要评测数据集,由 LDC 于 2005 年发布,包含 49 组多文档集合(每组 10-30 篇新闻)及人工标注的参考摘要,是多文档摘要与信息融合任务的经典基准资源。
2026-01-14 11:05:46
369
1
原创 Chinese Proposition Bank 1.0数据集介绍,官网编号LDC2005T23
Chinese Proposition Bank 1.0(CPB 1.0,LDC2005T13)是 LDC 于 2005 年发布的中文浅层语义标注语料库,基于 Penn Chinese Treebank(CTB)的句法树添加谓词 - 论元标注,是中文语义角色标注(SRL)的核心基准资源。
2026-01-13 15:18:48
429
1
原创 Arabic Treebank: Part 3 (full corpus) v 2.0 (MPG + Syntactic Analysis)数据集介绍,官网编号LDC2005T23
Arabic Treebank: Part 3 (full corpus) v 2.0(LDC2005T20)是宾夕法尼亚大学阿拉伯语树库(PATB)的第三部分完整语料库,由 LDC 于 2005 年发布,包含约 35 万词现代标准阿拉伯语新闻文本,具备 MPG 形态标注与 Treebank II 式句法分析标注,是阿拉伯语 NLP 研究的核心基准资源。
2026-01-13 15:09:40
431
1
原创 Chinese Gigaword Second Edition数据集介绍,官网编号LDC2005T14
Chinese Gigaword Second Edition(LDC2005T14)是美国语言数据联盟(LDC)于 2005 年发布的大规模中文新闻语料库,总规模约 14 亿汉字,涵盖新华社、中央通讯社(台湾)、新加坡《联合早报》三家权威新闻机构 1991-2004 年的新闻文本,是中文自然语言处理研究的核心基础资源之一。
2026-01-13 15:03:15
499
1
原创 CCGBank: CCG Combinatory Categorical Grammar for Penn Treebank 2 数据集介绍,官网编号LDC2005T13
CCGBank(LDC2005T13)是基于组合范畴语法(CCG)对宾州树库 2(Penn Treebank 2)进行转换与标注的英文句法树库,由宾夕法尼亚大学构建、LDC 于 2005 年发布,是 CCG 句法分析的核心基准资源,可支撑句法解析、语义角色标注等 NLP 任务。
2026-01-13 14:57:21
503
1
原创 Discourse GraphBank数据集介绍,官网编号LDC2005T08
Discourse GraphBank(DGB,又称 GraphBank)是由 Wolf 和 Gibson 于 2005 年提出并构建的篇章级语料库,它采用图结构而非传统树结构来建模语篇连贯关系,弥补了树结构在复杂篇章关系表达上的不足,是 NLP 领域篇章分析的重要早期资源。
2026-01-13 14:38:24
457
1
原创 ACE Time Normalization (TERN) 2004 English Training Data v 1.0数据集介绍,官网编号LDC2005T07
ACE Time Normalization (TERN) 2004 English Training Data v 1.0(LDC2005T07)是 LDC 为 ACE 2004 时间表达式识别与规范化任务发布的英语训练集,核心是带 TIMEX2 标注的时间表达式 + ISO 8601 归一化格式,适配时间抽取、事件时序关联等 NLP 任务,是时间信息处理领域的经典基准资源。
2026-01-12 23:56:44
421
1
原创 Chinese News Translation Text Part 1数据集介绍,官网编号LDC2005T06
Chinese News Translation Text Part 1(LDC2005T06)是 LDC 于 2005 年发布的汉英新闻专线平行语料库,面向 DARPA GALE/TIDES 项目,含 1001 篇新闻(法新社 580 篇 + 新华社 421 篇)、约 47.4 万汉字中文原文与 28.5 万词英文译文,适配机器翻译、跨语言检索与模型基线训练,标注结构化、译文经质控,是汉英新闻翻译领域的经典基准资源。
2026-01-12 23:54:31
402
1
原创 Multiple-Translation Arabic (MTA) Part 2数据集介绍,官网编号LDC2005T05
Multiple-Translation Arabic (MTA) Part 2(LDC2005T05)是 LDC 于 2005 年发布的现代标准阿拉伯语(MSA)多译文平行语料库,核心为法新社(AFP)阿拉伯语新闻文本 + 3 组独立人工英译,适配机器翻译评估、翻译质量自动度量与模型优化,是阿拉伯语 - 英语翻译评测的经典基准资源LDC。
2026-01-12 23:51:23
572
1
原创 Arabic Treebank: Part 1 v 3.0 (POS with full vocalization + syntactic analysis)数据集介绍,官网编号LDC2005T02
Arabic Treebank: Part 1 v3.0(ATB1 v3.0,LDC2011T08)是 LDC 于 2011 年发布的现代标准阿拉伯语(MSA)新闻句法树库,由法新社(AFP)新闻语料构建,含约 16.6 万词 / 2.5K 句,核心标注含完整元音化(含大小写标记)、精细词性(含形态特征)、Penn Treebank II 式短语结构句法树,适配阿拉伯语形态分析、句法解析、机器翻译等 NLP 研发,标注经多轮校验,一致性与完整性达工业级标准。
2026-01-12 23:47:33
540
1
原创 Chinese Treebank 5.0数据集介绍,官网编号LDC2005T01
Chinese Treebank 5.0(CTB5.0,LDC2005T01)是 LDC 于 2005 年发布的 Penn 中文句法树库,以 GB 编码提供 18,782 句新闻语料(约 50.7 万词 / 82.5 万汉字),含分词、词性、句法括号三级标注,采用双轮校验 + 部分盲注仲裁的标注流程,适配句法解析、语义角色标注、机器翻译等研发,是中文 NLP 句法建模的经典基准资源。
2026-01-12 23:44:10
612
1
原创 FORM1 Kinematic Gesture数据集介绍,官网编号LDC2004V01
FORM1 Kinematic Gesture(FORM1,常称 FORM 手势运动学数据集)是由 Carnegie Mellon University 与 TalkBank 联合构建的手势运动学标注语料库,核心用于手势相位检测、运动学特征建模与多模态交互研究,以教学场景的自然手势为样本,采用 FORM 多轨道标注体系记录肢体位置、形状、运动参数,适配手势分割、相位分类等 NLP 与计算机视觉交叉任务。
2026-01-11 00:15:33
912
1
原创 Prague Czech-English Dependency Treebank 1.0数据集介绍,官网编号LDC2004T25
Prague Czech-English Dependency Treebank 1.0(PCEDT 1.0,LDC2004T25)是查尔斯大学 ÚFAL 与 LDC 联合发布的捷克 - 英语平行依存树库,基于 Penn Treebank III 的华尔街日报(WSJ)文本及人工翻译的捷克语对应文本构建,采用功能生成描述(FGD)理论进行形态、分析、深层语义(tectogrammatical)三层标注,适配机器翻译、跨语言句法迁移、语义角色对齐等双语 NLP 任务,是早期平行树库的标杆资源。
2026-01-11 00:12:16
696
1
原创 Arabic Treebank: Part 2 v 2.0数据集介绍,官网编号LDC2004T02
Arabic Treebank: Part 2 v 2.0(LDC2004T02)是 LDC 发布的现代标准阿拉伯语(MSA)句法树库,基于 Al - Hayat 新闻文本构建,含约 14.4 万词的形态 - 句法标注,新增完整元音标注、词元 ID 等特性,适配阿拉伯语句法分析、分词、词性标注等 NLP 任务,是 Penn Arabic Treebank(PATB)的核心组成部分。
2026-01-10 23:57:19
888
1
原创 Czech Broadcast News Transcripts数据集介绍,官网编号LDC2004T01
Czech Broadcast News Transcripts(常与 Czech Broadcast News Corpus 关联,LDC 编号 LDC2004T01)是 LDC 发布的捷克语广播新闻转写数据集,含约 26 小时人工转写文本与对应音频,适配捷克语 ASR、语言建模、元数据提取(MDE)等任务,是捷克语语音与文本处理的核心基准资源。
2026-01-10 23:55:34
863
1
原创 FORM2 Kinematic Gesture数据集介绍,官网编号LDC2003V01
FORM2 Kinematic Gesture 数据集(LDC2003V01)是基于 FORM2 运动学手势标注体系构建的会话场景手势语料库,核心用于手势 - 语音交互分析、手势识别与生成、人机交互(HCI)中自然手势建模,适配多模态交互与 NLP 交叉研究。
2026-01-09 11:01:26
724
1
原创 Multiple-Translation Arabic (MTA) Part 1数据集介绍,官网编号LDC2003T18
Multiple-Translation Arabic (MTA) Part 1(LDC2003T18)是 LDC 发布的阿拉伯语 - 英语翻译评测基准数据集,核心用于机器翻译多参考评估、翻译质量评测算法研发与模型调优,适配统计与神经机器翻译的性能验证场景。
2026-01-09 10:59:10
678
1
原创 Korean-English Treebank Annotations数据集介绍,官网编号LDC2002T26
Korean-English Treebank Annotations(韩英树库标注数据集)是面向韩英双语的句法树库资源,以词法、句法与语义标注为核心,支撑句法分析、机器翻译、跨语言 NLP 模型开发与评测,主流包括 Penn Korean Treebank(PKT)、KAIST Treebank 及 UD Korean Treebank 等衍生标注集,以下从核心定位、典型版本、标注体系、获取与应用等方面详细介绍。
2026-01-08 23:01:16
572
1
原创 Multiple-Translation Chinese Corpus数据集介绍,官网编号LDC2002T01
Multiple-Translation Chinese Corpus(多译文中文语料库,常称多参考中文翻译语料库)是一类面向机器翻译(MT)等任务、为单句提供多个人工参考译文的高质量中文相关评测与训练资源,核心用于 MT 模型评估、译文多样性研究及多参考训练优化,以 CWMT 系列与 MuCGEC 等为代表。以下从核心定义、典型版本、关键特性、获取与应用等方面详细介绍。
2026-01-08 22:37:10
665
1
原创 2000 Communicator Evaluation数据集介绍,官网编号LDC2002S56
2000 Communicator Evaluation Corpus(常称 June 2000 Communicator Corpus,LDC 目录编号 LDC2002S56)是 DARPA Communicator 项目核心评测数据集,由 NIST 主导、LDC 发布,聚焦旅行规划领域口语对话系统的端到端评测,为口语对话系统的任务完成度、交互效率与用户满意度评估提供统一基准,是 PARADISE 评测框架的经典落地资源。
2026-01-07 11:22:52
671
1
原创 2001 NIST Speaker Recognition Evaluation Corpus数据集介绍,官网编号LDC2002S34
2001 NIST Speaker Recognition Evaluation Corpus(LDC 目录编号 LDC2002S34)是 NIST 主导、LDC 发布的经典说话人识别评测基准数据集,核心用于会话式电话语音(CTS)场景的说话人检测与验证任务,为早期说话人识别系统提供统一评测标准与训练 / 测试数据划分,是 GMM - UBM 等经典模型的核心评测资源。
2026-01-07 11:19:34
881
1
原创 Prague Dependency Treebank 1.0数据集介绍,官网编号LDC2001T10
Prague Dependency Treebank 1.0(PDT 1.0)是查尔斯大学形式与应用语言学研究所(UFAL)主导、LDC 于 2001 年发布的捷克语依存树库(LDC2001T10),含约 130 万词、10 万句,覆盖报纸、经济、科普等文本,以形态 + 表层句法双层人工标注为核心,是捷克语 NLP 与依存句法建模的里程碑基准资源。
2026-01-06 15:59:21
880
1
原创 Spanish Newswire Text, Volume 2数据集介绍,官网编号LDC99T41
Spanish Newswire Text, Volume 2 对应的 LDC 编号是 LDC99T41。是西班牙语新闻专线文本数据集,以下是详细说明: 下载方式:1、注册LDC账号并加入组织获取数据,官网链接:LDC官网2、关注公众号,回复Spanish Newswire Text, Volume 2NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg
2026-01-06 15:57:48
254
1
原创 Portuguese Newswire Text数据集介绍,官网编号LDC99T40
1999 年发布的葡萄牙语新闻专线文本数据集,全称为 Portuguese Newswire Text,与之前提到的博阿齐奇大学 2016 年版是两个不同的资源,前者为 LDC 官方发布的早期葡语新闻语料,后者是后续开源的更大规模数据集。
2026-01-05 10:58:18
320
1
原创 USC Marketplace Broadcast News Transcripts数据集介绍,官网编号LDC99T36
USC Marketplace Broadcast News Transcripts 是 USC 与美国公共媒体(APM)联合发布的商业广播新闻文本转录集,源自全国性财经广播节目 Marketplace,适配财经 NLP、广播新闻 ASR 建模、信息抽取等任务,是商业广播新闻文本的优质基准资源。
2026-01-05 10:47:29
376
1
原创 Japanese Business News Text Supplement数据集,官网编号LDC99T34
Japanese Business News Text Supplement是 LDC 发布的日语财经新闻文本补充数据集,核心为日本经济新闻社与共同社的商业新闻文本,支撑日语语言建模、机器翻译与财经 NLP 研究,是日语商业文本基准资源之一。
2026-01-04 15:07:12
284
1
原创 SUSAS Transcripts数据集介绍,官网编号LDC99T33
SUSAS Transcripts(LDC99T33)是 SUSAS(Speech Under Simulated and Actual Stress)数据库的配套人工转录文本集,1999 年由 LDC 发布,为模拟 / 真实压力下的语音识别、情感 / 压力语音分析提供精准文本标注,与 SUSAS 音频(LDC97S22)配套使用,是压力语音研究的经典基准转录资源。
2026-01-04 15:05:07
583
1
原创 JURIS数据集介绍,官网编号LDC98T32
JURIS(全称 JURIS: Department of Justice Information Retrieval System Corpus)是 LDC 早期发布的英语法律文本基准语料,核心用于法律信息检索、文本分类与术语挖掘等 NLP 任务,源自美国司法部信息检索系统的公开法律文档,以权威法律文书与标准化元数据为核心特色。
2025-12-31 11:15:02
224
1
原创 North American News Text Supplement数据集介绍,官网编号LDC98T30
North American News Text Supplement(常称 NANTC Supplement,关联 BLLIP 北美新闻文本系列)是 LDC 发布的英语新闻文本补充语料,核心用于扩充基础版北美新闻文本库,适配语言建模、句法解析、信息提取等 NLP 任务,以高质量主流媒体新闻文本与统一目录结构为特色。
2025-12-31 11:13:21
301
1
原创 CSR-III Speech数据集介绍,官网编号LDC95S23
CSR-III Speech 数据集(常称 CSR Hub-3 或 WSJ CSR III)是美国 DARPA 持续语音识别(CSR)计划第三阶段核心基准数据集,由 SRI 国际主导采集、LDC 分发,专为大词汇量连续语音识别(LVCSR)算法研发与评测设计,1994—1995 年发布,是 20 世纪 90 年代 ASR 领域的核心标准语料库之一。
2025-12-30 11:19:36
416
1
原创 Message Understanding Conference (MUC) 6 Additional News Text数据集介绍,官网编号LDC96T10
MUC-6 Additional News Text(常称 MUC-VI Additional News Text)是 1995 年 MUC-6 会议配套的补充新闻文本数据集,核心用于信息抽取(IE)、命名实体识别(NER)、共指消解等 NLP 任务的训练与评测,文本源自《华尔街日报》(WSJ),由 LDC 发布并受版权保护。
2025-12-30 11:19:17
282
1
原创 KING Speaker Verification数据集介绍,官网编号LDC95S22
KING Speaker Verification 数据集(常称 KING Corpus)是 20 世纪 90 年代发布的经典说话人识别 / 确认基准数据集,专为电话与宽带场景的说话人验证算法研发设计,是早期该领域核心测试基准之一,适配金融电话交易、安防身份核验等场景。
2025-12-29 10:02:50
212
1
原创 UN Parallel Text (Complete)数据集介绍,官网编号LDC94T4A、LDC94T4B-1、LDC94T4B-2、LDC94T4B-3
UN Parallel Text (Complete) 通常即联合国平行语料库(UN Parallel Corpus,简称 UNPC),是联合国大会和会议管理部(DGACM)联合微软研究院发布的大规模多语言官方文件平行语料库,核心用于机器翻译、跨语言对齐与术语挖掘,覆盖联合国六大官方语言,由 1990—2014 年手动翻译的官方记录与议会文件构成,2016 年正式发布 v1.0,数据属公有领域,可自由用于学术与商业场景。
2025-12-29 09:59:07
354
1
原创 Switchboard Credit Card数据集介绍,官网编号LDC93S8
Switchboard Credit Card 数据集是 Switchboard 电话口语语料库中聚焦 “信用卡使用” 主题的子数据集,由美国 DARPA 资助、德州仪器采集、LDC 发布,核心为 35 段电话对话(约 227 分钟音频、5649 个 utterances),含完整转录与对话行为标注,是语音识别、关键词检测、金融对话研究的标准测试集。以下从核心信息、数据与标注、设计与应用等方面展开介绍。
2025-12-26 10:34:07
297
1
原创 HCRC Map Task Corpus数据集介绍,官网编号LDC93S12
该数据集由多个不同的子集组成,旨在提供多样化的说话人、口音、环境噪声和语境条件下的语音样本。数据集中的每一条语音记录都配有详细的元数据信息,包括但不限于说话人的性别、年龄、方言背景以及录音的具体环境等。此外,为了支持跨语言的研究与应用,Mixer 7还包含了其他语言的数据,但其中的西班牙语部分因其广泛的应用需求而受到特别关注2。对于技术实现方面,如果需要从数据集中提取特定的信息或进行预处理操作,可以采用Python编程语言结合相关的音频处理库如pydub或者直接利用机器学习框架提供的工具来完成任务。
2025-12-26 10:26:48
269
1
原创 Greybeard 数据集介绍,官网编号LDC2013S05
Greybeard 数据集是一个主要用于自然语言处理(NLP)领域的基准数据集,特别针对对话系统和问答系统的评估。该数据集的设计目的是为了测试模型在复杂对话上下文中的理解和推理能力。长上下文依赖性:Greybeard 的设计强调了对长对话历史的理解需求,这使得模型必须能够有效地追踪并理解整个对话流程才能给出准确的回答。Greybeard 数据集通常包含多轮对话记录,这些记录来源于真实世界的对话场景或人工构造的复杂语义情境。问题或指令:用户在当前对话轮次中提出的问题或执行的命令。NLP语料共享、LDC语料。
2025-06-30 16:19:03
239
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅