ldccorpora-CSDN博客

原创 Spanish TimeBank 1.0数据集介绍，官网编号LDC2012T12

基于 TimeML/ISO-TimeML 标准，是西班牙语首个大规模时间标注资源，与英语 TimeBank 1.2、加泰罗尼亚语 TimeBank 1.0 构成跨语言时间处理基准。开发机构 Barcelona Media（Roser Saurí, Toni Badia）发布机构 Linguistic Data Consortium（LDC）数据类型时间语义标注语料库（TimeML/ISO-TimeML）LDC。文本来源 AnCora-Es 语料库（西班牙语新闻文本。

2026-03-04 08:34:40 28 2

原创 American English Nickname Collection数据集介绍，官网编号LDC2012T11

全称 American English Nickname Collection。发布机构 Linguistic Data Consortium（LDC），基于海量美国公共记录构建，是目前规模最大、量化最完整的英文昵称关联资源。语言美式英语（American English。数据类型全名 - 昵称映射（含量化关联强度）开发机构 Intelius, Inc.LDC 编号 LDC2012T11。是 LDC 于 2012 年发布的。发布时间 2012 年。

2026-03-03 10:39:02 95 1

原创 Catalan TimeBank 1.0数据集介绍，官网编号LDC2012T10

基于 TimeML/ISO-TimeML 标准，是加泰罗尼亚语首个大规模时间语义标注资源，与英语 TimeBank 1.2、西班牙语 TimeBank 1.0 构成跨语言时间处理基准。开发机构 Barcelona Media（Roser Saurí, Toni Badia）是巴塞罗那媒体（Barcelona Media）开发、LDC 于 2012 年发布的。数据类型时间语义标注语料库（TimeML/ISO-TimeML）语言加泰罗尼亚语（Catalan）

2026-03-03 10:36:42 77 1

原创 Arabic-Dialect/English Parallel Text数据集介绍，官网编号LDC2012T09

LDC语料

2026-03-03 10:35:05 77 1

原创 Prague Czech-English Dependency Treebank 2.0数据集介绍，官网编号LDC2012T08

基于华尔街日报（WSJ）文本构建，采用多层级深度句法标注，是跨语言依存分析、机器翻译与语义角色标注的权威基准数据。文本来源英语：Penn Treebank 华尔街日报（WSJ）全文；是由捷克查理大学形式与应用语言学研究所（ÚFAL）开发、LDC 于 2012 年发布的。发布机构 Linguistic Data Consortium（LDC）数据类型平行依存树库（多层级句法 + 语义标注）开发机构捷克查理大学 ÚFAL。语言对捷克语 ↔ 英语。

2026-03-03 10:33:43 67 1

原创 Chinese Gigaword Fifth Edition数据集介绍，官网编号LDC2011T12

为西班牙语自然语言处理（NLP）的核心基础资源，广泛用于预训练语言模型、机器翻译、信息检索与跨语言知识图谱构建等任务。核心任务西语预训练语言模型、西↔英 / 中 / 法机器翻译、实体链接、文本分类、词汇语义研究。发布机构 Linguistic Data Consortium (LDC)官方名称 Spanish Gigaword Third Edition。是语言数据联盟（LDC）于 2011 年发布的。语言西班牙语（含伊比利亚美洲主流变体）发布时间 2011 年。

2026-03-03 08:46:41 163 1

原创 Arabic Gigaword Fifth Edition数据集介绍，官网编号LDC2011T11

是阿拉伯语 NLP 领域的核心基础资源，为语言模型训练、机器翻译、文本挖掘等任务提供权威且大规模的无标注文本。核心任务阿拉伯语预训练语言模型、机器翻译（阿↔英 / 中）、信息检索、文本分类、词汇语义研究。发布机构 Linguistic Data Consortium (LDC)官方名称 Arabic Gigaword Fifth Edition。是语言数据联盟（LDC）于 2011 年 10 月发布的。数据类型无标注新闻专线文本（含完整元数据）

2026-03-02 15:32:30 230 1

原创 French Gigaword Third Edition数据集介绍，官网编号LDC2011T10

是语言数据联盟（LDC）于 2011 年发布的，是法语自然语言处理领域的核心基础资源，为语言模型训练、机器翻译、文本挖掘等任务提供海量高质量文本。

2026-03-02 15:31:05 382 1

原创 Arabic Treebank: Part 2 v 3.1数据集介绍，官网编号LDC2011T09

是语言数据联盟（LDC）于 2011 年发布的，是阿拉伯语 NLP 领域的核心基准资源，聚焦新闻专线文本的词法、形态与句法全维度标注。

2026-03-02 15:29:29 355 1

原创 Datasets for Generic Relation Extraction (reACE)数据集介绍，官网编号LDC2011T08

是爱丁堡大学（University of Edinburgh）基于 ACE 2004/2005 语料重新标准化、统一标注的，由 LDC 于 2011 年发布，专为跨领域、跨任务的关系抽取研究提供标准化评测资源。

2026-03-02 15:27:28 142 1

原创 English Gigaword Fifth Edition数据集介绍，官网编号LDC2011T07

是语言数据联盟（LDC）于 2011 年 6 月发布的，是自然语言处理领域最经典、应用最广泛的基准语料之一。

2026-03-02 15:26:19 290 1

原创 TRECVID 2006 Keyframes数据集介绍，官网编号LDC2010V02

是 LDC 于 2010 年发布的，基于多语种广播新闻视频提取，是视频语义索引、跨模态检索、概念检测领域的经典大规模视觉语料。

2026-03-01 16:18:25 213 1

原创 TRECVID 2004 Keyframes & Transcripts数据集介绍，官网编号LDC2010V01

是 LDC 于 2010 年发布的，核心包含，是视频信息检索、多模态分析领域的经典评测语料。

2026-03-01 16:16:46 265 1

原创 Message Understanding Conference 7 Timed (MUC7_T)数据集介绍，官网编号LDC2010T15

MUC7_T（LDC2010T15）是 LDC 于 2010 年发布的带标注耗时的命名实体识别（NER）数据集，基于 MUC-7 的飞机失事新闻训练集改造，核心用于 NER 标注效率与算法实时性研究，适配信息抽取与标注资源优化场景。

2026-01-26 16:31:22 535 1

原创 French Gigaword Second Edition数据集介绍，官网编号LDC2009T28

French Gigaword Second Edition（LDC2009T28）是 LDC 于 2009 年发布的大规模法语新闻专线单语语料库，核心用于法语 NLP 任务，提供权威、时序覆盖广的单语训练数据，适配语言模型、机器翻译等大规模训练场景。

2026-01-26 16:29:45 597 1

原创 Chinese Gigaword Fourth Edition数据集介绍，官网编号LDC2009T27

Chinese Gigaword Fourth Edition（LDC2009T27）是 LDC 于 2009 年 9 月发布的大规模现代汉语新闻语料库，核心用于语言模型训练、机器翻译与信息检索，以新华社等机构新闻文本为核心，经清洗、分词与标准化处理，规模超 130 万篇新闻，适配大规模中文 NLP 任务。

2026-01-23 16:18:37 212 1

原创 NXT Switchboard Annotations数据集介绍，官网编号LDC2009T26

NXT Switchboard Annotations（LDC2009T26）是 LDC 于 2009 年发布的美式英语口语对话多模态标注语料库，基于 Switchboard 电话对话语料与 Penn Treebank 子集构建，以 NITE XML Toolkit（NXT）整合句法、韵律、对话行为等多层标注，核心用于口语对话理解、语音语言技术研究与建模。

2026-01-23 16:15:57 409 1

原创 Web 1T 5-gram, 10 European Languages Version 1数据集介绍，官网编号LDC2009T25

Web 1T 5-gram, 10 European Languages Version 1（LDC2009T25）是谷歌构建、LDC 于 2009 年 10 月发布的多语言 n 元语法数据集，核心用于语言模型构建、文本补全与统计语言学研究，含 10 种欧洲语言的 1-5 元语法及词频统计，数据源于万亿级网页文本，规模与覆盖度适配多场景 NLP 任务。

2026-01-23 16:13:22 355 1

原创 FactBank 1.0数据集介绍，官网编号LDC2009T23

项目详情官网编号LDC2009T23发布机构美国宾夕法尼亚大学语言数据联盟（LDC）发布时间2009 年 6 月语言英语数据规模基于 TimeBank 的 183 篇新闻文档，含 9761 个事件标注，其中训练集 6636 个、开发集 2462 个、测试集 663 个数据来源TimeBank 新闻语料（含路透社等机构新闻报道）标注类型事件事实性程度、来源归因、极性标注。

2026-01-23 16:00:34 389 1

原创 Arabic Newswire English Translation Collection数据集介绍，官网编号LDC2009T22

LDC2009T22 Arabic Newswire English Translation Collection 是语言数据联盟（LDC）发布的阿拉伯语 - 英语新闻专线平行语料库，核心用于机器翻译、跨语言对齐与 NLP 模型训练，含约 100 万词级平行文本，标注与对齐规范完善。

2026-01-23 15:56:14 307 1

原创 2007 NIST Language Recognition Evaluation Supplemental Training Set数据集介绍，官网编号LDC2009S05

LDC2009S04（2007 NIST Language Recognition Evaluation Test Set）的配套训练集 LDC2009S05（2007 NIST Language Recognition Evaluation Supplemental Training Set），由 LDC 于 2009 年发布，用于支撑 2007 NIST 语种识别评测（LRE07）的模型训练与开发，以下从核心信息、数据构成、标注与应用等方面展开详细介绍：

2026-01-22 15:56:06 382 1

原创 2007 NIST Language Recognition Evaluation Test Set数据集介绍，官网编号LDC2009S04

LDC2009S04（2007 NIST Language Recognition Evaluation Test Set）是 NIST 2007 语种识别评测（LRE07）的官方测试集，由 LDC 于 2009 年发布，专为语种识别系统的基准测试设计，包含电话信道语音与 26 种目标语言 / 方言，是语种识别领域的核心基准数据。

2026-01-22 15:49:41 464 1

原创 CSLU: S4X Release 1.2数据集介绍，官网编号LDC2009S03

LDC2009S03（CSLU: S4X Release 1.2）是由俄勒冈健康与科学大学口语理解中心（CSLU）构建、LDC 于 2009 年发布的英文朗读语音数据集，聚焦数字串朗读场景，适用于语音识别、说话人识别等任务，以下从核心信息、数据内容、标注信息、应用场景等方面展开介绍：

2026-01-22 15:45:01 374 1

原创 Czech Broadcast Conversation Speech数据集介绍，官网编号LDC2009S02

LDC2009S02 是 LDC 于 2009 年 7 月发布的捷克语广播对话语音数据集，由 Jáchym Kolár 与 Jan Svec 主导构建，配套文本标注集为 LDC2009T20，核心用于捷克语口语识别、会话分析与结构元数据提取研究，是捷克语广播类语音资源的重要补充。

2026-01-22 15:41:54 375 1

原创 An English Dictionary of the Tamil Verb Second Edition数据集介绍，官网编号LDC2009L01

LDC2009L01 是由宾夕法尼亚大学语言数据联盟（LDC）发布的英 - 泰米尔语动词词典第二版，由 Harold Schiffman 和 Vasu Renganathan 编撰，2009 年 4 月 16 日发布，ISBN 为 1-58563-507-3，是 LDC2008L01 的升级版，适用于泰米尔语学习、语言学分析、社会语言学与心理语言学研究等场景。

2026-01-22 15:33:38 341 1

原创 GALE Phase 1 Chinese Broadcast News Parallel Text - Part 1数据集介绍，官网编号LDC2007T23

GALE Phase 1 Chinese Broadcast News Parallel Text - Part 1（LDC2007T23）是 LDC 于 2007 年面向 DARPA GALE 项目发布的中 - 英平行文本语料，核心为中文广播新闻转写文本及其人工英译对，适配机器翻译（MT）训练与评测，是 GALE Phase 1 中文广播新闻平行文本的首期子库。

2026-01-16 15:43:11 237 1

原创 2001 Topic Annotated Enron Email Data Set数据集介绍，官网编号LDC2007T22

2001 Topic Annotated Enron Email Data Set（LDC2007T22）是 LDC 于 2007 年发布的人工话题标注安然邮件子集，源自 2001 年安然公司真实业务邮件，核心价值在于人工标注的 32 个话题标签，适配文本分类、话题检测与企业邮件语义挖掘任务。

2026-01-16 15:38:54 281 2

原创 OntoNotes Release 1.0数据集介绍，官网编号LDC2007T21

OntoNotes Release 1.0（LDC2007T21）是 2007 年 2 月 LDC 发布的多语言深度标注基础语料库，由 BBN 等机构联合构建，聚焦英 / 中 / 阿三语新闻专线文本，提供句法 - 语义多层级标注，是 OntoNotes 系列的初始版本，核心用于句法分析、语义角色标注、指代消解等 NLP 基础任务LDC。

2026-01-16 15:36:34 354 1

原创 GALE Phase 1 Distillation Training数据集介绍，官网编号LDC2007T20

GALE Phase 1 Distillation Training（LDC2007T20）是 LDC 为 DARPA GALE 计划构建、2007 年发布的信息提炼（Distillation）任务训练数据集，核心用于训练多语言文本 / 语音的信息抽取与知识整合模型，以人工标注的查询 - 事实（nugget）映射为核心特色LDC。

2026-01-16 15:33:07 605 1

原创 MITRE 1997 Mandarin Broadcast News Speech Translations (HUB-4NE)数据集介绍，官网编号LDC2007T19

MITRE 1997 Mandarin Broadcast News Speech Translations (HUB-4NE，LDC2007T19) 是 MITRE 公司构建、LDC 于 2007 年发布的汉英广播新闻语音翻译数据集，以 1997 年 HUB-4NE 中文广播新闻语音（LDC98S73）为底本，提供带参考译文的语音 - 文本 - 翻译三位一体资源，核心用于语音翻译（ST）、机器翻译（MT）与语音识别（ASR）联合任务。

2026-01-16 15:28:40 547 1

原创 Nationwide Speech Project数据集介绍，官网编号LDC2007S15

Nationwide Speech Project（NSP）是由 Clopper & Pisoni 主导、聚焦美国英语方言声学与感知研究的标准语音语料库，含 60 位不同方言区年轻成人的高质量录音与多类型标注，核心用于方言变异分析、语音识别与感知研究，部分数据可通过 LDC 获取。

2026-01-15 12:06:30 243 2

原创 2004 Spring NIST Rich Transcription (RT-04S) Evaluation Data数据集介绍，官网编号LDC2007S12

2004 Spring NIST Rich Transcription (RT-04S) Evaluation Data（LDC2007S12）是 LDC 发布的 RT-04S 评测专用数据集，与开发集 LDC2007S11 配套，含约 21.3 小时多通道会议语音与标准标注转录，核心用于会议语音识别、说话人分离 / 识别等技术的官方评测与性能验证，2007 年发布，是会议语音丰富转录领域的权威评估基准。

2026-01-15 12:04:53 497

原创 2004 Spring NIST Rich Transcription (RT-04S) Development Data数据集介绍，官网编号LDC2007S11

2004 Spring NIST Rich Transcription (RT-04S) Development Data（LDC2007S11）是 LDC 为 NIST RT-04S 会议语音识别评测发布的开发数据集，核心用于多通道会议语音的端点检测、说话人分离与识别、丰富转录模型训练 / 调参，含约 28.7 小时会议语音、多通道录音与完整标注转录，2007 年发布。

2026-01-15 12:01:04 361 1

原创 Mandarin Affective Speech数据集介绍，官网编号LDC2007S09

Mandarin Affective Speech（LDC2007S09，又称 MASC）是 LDC 于 2007 年发布的普通话情感语音数据集，由浙江大学团队采集，含 40 名发音人、约 5.2 小时标注语音与文本，核心用于情感语音识别、韵律特征研究与说话人识别，填补了普通话情感口语标注语料的早期空白。

2026-01-15 11:54:00 369 1

原创 ARL Urdu Speech Database, Training Data数据集介绍，官网编号LDC2007S03

ARL Urdu Speech Database, Training Data（LDC2007S03）是 LDC 发布的乌尔都语朗读式语音训练数据集，由美国陆军研究实验室（ARL）提供、Appen 采集，核心用于乌尔都语语音识别（ASR）模型训练与方言研究，含约 160 名说话人、35.6 小时语音及对应转录文本，2007 年 2 月发布。

2026-01-15 11:48:17 505 1

原创 Gulf Arabic Conversational Telephone Speech & Transcripts数据集介绍，官网编号LDC2006S43、LDC2006T15

Gulf Arabic Conversational Telephone Speech（LDC2006S43）是 LDC 于 2006 年发布的海湾阿拉伯语电话会话语音数据集，核心用于海湾阿拉伯语方言的语音识别（ASR）、说话人识别及口语理解模型训练，包含约 46 小时自发电话会话语音与文本转录，适配真实电话信道下的方言语音技术研发。

2026-01-14 11:28:01 413 1

原创 Korean Broadcast News Speech数据集介绍，官网编号LDC2006S42

Korean Broadcast News Speech 是由 LDC 于 2006 年发布的韩语广播新闻语音数据集（编号 LDC2006S42），核心用于韩语广播新闻语音识别（ASR）、大词汇连续语音识别（LVCSR）及声学 / 语言模型训练，包含锚定与记者的新闻播报语音及文本转录标注，适配开放域新闻场景的语音技术研发。

2026-01-14 11:23:15 373 1

原创 CSLU: Names Release 1.3数据集介绍，官网编号LDC2006S39

CSLU: Names Release 1.3 是由俄勒冈健康与科学大学口语理解中心（CSLU）构建、LDC 于 2009 年发布的英文姓名语音数据集（编号 LDC2006S39），核心用于姓名语音识别（ASR）、发音词典生成与说话人验证系统研发，包含大规模孤立姓名朗读语音及文本、发音标注，适配人名识别与口语交互场景的模型训练与评测。

2026-01-14 11:15:41 603 1

原创 West Point Heroico Spanish Speech数据集介绍，官网编号LDC2006S37

West Point Heroico Spanish Speech 是由美国西点军校（USMA）外语系与技术强化语言学习中心（CTELL）联合墨西哥军事学院（Heroico Colegio Militar）构建、LDC 于 2006 年发布的西班牙语语音数据集（编号 LDC2006S37），核心用于西班牙语语音识别（ASR）、发音建模与语言学习应用开发，包含母语者与非母语者的朗读及提示语音与文本标注，适配军用与教育领域的语音技术研发。

2026-01-14 11:11:57 589 1

原创 HARD 2004 Text数据集介绍，官网编号LDC2005T28

HARD 2004 Text（LDC2005T28）是 DARPA HARD 项目下的英文文本摘要评测数据集，由 LDC 于 2005 年发布，包含 49 组多文档集合（每组 10-30 篇新闻）及人工标注的参考摘要，是多文档摘要与信息融合任务的经典基准资源。

2026-01-14 11:05:46 558 1

空空如也

空空如也