自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 Message Understanding Conference 7 Timed (MUC7_T)数据集介绍,官网编号LDC2010T15

MUC7_T(LDC2010T15)是 LDC 于 2010 年发布的带标注耗时的命名实体识别(NER)数据集,基于 MUC-7 的飞机失事新闻训练集改造,核心用于 NER 标注效率与算法实时性研究,适配信息抽取与标注资源优化场景。

2026-01-26 16:31:22 527

原创 French Gigaword Second Edition数据集介绍,官网编号LDC2009T28

French Gigaword Second Edition(LDC2009T28)是 LDC 于 2009 年发布的大规模法语新闻专线单语语料库,核心用于法语 NLP 任务,提供权威、时序覆盖广的单语训练数据,适配语言模型、机器翻译等大规模训练场景。

2026-01-26 16:29:45 585

原创 Chinese Gigaword Fourth Edition数据集介绍,官网编号LDC2009T27

Chinese Gigaword Fourth Edition(LDC2009T27)是 LDC 于 2009 年 9 月发布的大规模现代汉语新闻语料库,核心用于语言模型训练、机器翻译与信息检索,以新华社等机构新闻文本为核心,经清洗、分词与标准化处理,规模超 130 万篇新闻,适配大规模中文 NLP 任务。

2026-01-23 16:18:37 195

原创 NXT Switchboard Annotations数据集介绍,官网编号LDC2009T26

NXT Switchboard Annotations(LDC2009T26)是 LDC 于 2009 年发布的美式英语口语对话多模态标注语料库,基于 Switchboard 电话对话语料与 Penn Treebank 子集构建,以 NITE XML Toolkit(NXT)整合句法、韵律、对话行为等多层标注,核心用于口语对话理解、语音语言技术研究与建模。

2026-01-23 16:15:57 399

原创 Web 1T 5-gram, 10 European Languages Version 1数据集介绍,官网编号LDC2009T25

Web 1T 5-gram, 10 European Languages Version 1(LDC2009T25)是谷歌构建、LDC 于 2009 年 10 月发布的多语言 n 元语法数据集,核心用于语言模型构建、文本补全与统计语言学研究,含 10 种欧洲语言的 1-5 元语法及词频统计,数据源于万亿级网页文本,规模与覆盖度适配多场景 NLP 任务。

2026-01-23 16:13:22 345

原创 FactBank 1.0数据集介绍,官网编号LDC2009T23

项目详情官网编号LDC2009T23发布机构美国宾夕法尼亚大学语言数据联盟(LDC)发布时间2009 年 6 月语言英语数据规模基于 TimeBank 的 183 篇新闻文档,含 9761 个事件标注,其中训练集 6636 个、开发集 2462 个、测试集 663 个数据来源TimeBank 新闻语料(含路透社等机构新闻报道)标注类型事件事实性程度、来源归因、极性标注。

2026-01-23 16:00:34 381

原创 Arabic Newswire English Translation Collection数据集介绍,官网编号LDC2009T22

LDC2009T22 Arabic Newswire English Translation Collection 是语言数据联盟(LDC)发布的阿拉伯语 - 英语新闻专线平行语料库,核心用于机器翻译、跨语言对齐与 NLP 模型训练,含约 100 万词级平行文本,标注与对齐规范完善。

2026-01-23 15:56:14 289

原创 2007 NIST Language Recognition Evaluation Supplemental Training Set数据集介绍,官网编号LDC2009S05

2、关注公众号,回复 2007 NIST Language Recognition Evaluation Supplemental Training Set。NLP语料共享、LDC语料。

2026-01-22 15:56:06 372

原创 2007 NIST Language Recognition Evaluation Test Set数据集介绍,官网编号LDC2009S04

LDC2009S04(2007 NIST Language Recognition Evaluation Test Set)是 NIST 2007 语种识别评测(LRE07)的官方测试集,由 LDC 于 2009 年发布,专为语种识别系统的基准测试设计,包含电话信道语音与 26 种目标语言 / 方言,是语种识别领域的核心基准数据。

2026-01-22 15:49:41 447

原创 CSLU: S4X Release 1.2数据集介绍,官网编号LDC2009S03

2、关注公众号,回复 CSLU: S4X Release 1.2。NLP语料共享、LDC语料。

2026-01-22 15:45:01 367

原创 Czech Broadcast Conversation Speech数据集介绍,官网编号LDC2009S02

LDC2009S02 是 LDC 于 2009 年 7 月发布的捷克语广播对话语音数据集,由 Jáchym Kolár 与 Jan Svec 主导构建,配套文本标注集为 LDC2009T20,核心用于捷克语口语识别、会话分析与结构元数据提取研究,是捷克语广播类语音资源的重要补充。

2026-01-22 15:41:54 367

原创 An English Dictionary of the Tamil Verb Second Edition数据集介绍,官网编号LDC2009L01

LDC2009L01 是由宾夕法尼亚大学语言数据联盟(LDC)发布的英 - 泰米尔语动词词典第二版,由 Harold Schiffman 和 Vasu Renganathan 编撰,2009 年 4 月 16 日发布,ISBN 为 1-58563-507-3,是 LDC2008L01 的升级版,适用于泰米尔语学习、语言学分析、社会语言学与心理语言学研究等场景。

2026-01-22 15:33:38 333

原创 GALE Phase 1 Chinese Broadcast News Parallel Text - Part 1数据集介绍,官网编号LDC2007T23

GALE Phase 1 Chinese Broadcast News Parallel Text - Part 1(LDC2007T23)是 LDC 于 2007 年面向 DARPA GALE 项目发布的中 - 英平行文本语料,核心为中文广播新闻转写文本及其人工英译对,适配机器翻译(MT)训练与评测,是 GALE Phase 1 中文广播新闻平行文本的首期子库。

2026-01-16 15:43:11 230 1

原创 2001 Topic Annotated Enron Email Data Set数据集介绍,官网编号LDC2007T22

2001 Topic Annotated Enron Email Data Set(LDC2007T22)是 LDC 于 2007 年发布的人工话题标注安然邮件子集,源自 2001 年安然公司真实业务邮件,核心价值在于人工标注的 32 个话题标签,适配文本分类、话题检测与企业邮件语义挖掘任务。

2026-01-16 15:38:54 272 1

原创 OntoNotes Release 1.0数据集介绍,官网编号LDC2007T21

OntoNotes Release 1.0(LDC2007T21)是 2007 年 2 月 LDC 发布的多语言深度标注基础语料库,由 BBN 等机构联合构建,聚焦英 / 中 / 阿三语新闻专线文本,提供句法 - 语义多层级标注,是 OntoNotes 系列的初始版本,核心用于句法分析、语义角色标注、指代消解等 NLP 基础任务LDC。

2026-01-16 15:36:34 339 1

原创 GALE Phase 1 Distillation Training数据集介绍,官网编号LDC2007T20

GALE Phase 1 Distillation Training(LDC2007T20)是 LDC 为 DARPA GALE 计划构建、2007 年发布的信息提炼(Distillation)任务训练数据集,核心用于训练多语言文本 / 语音的信息抽取与知识整合模型,以人工标注的查询 - 事实(nugget)映射为核心特色LDC。

2026-01-16 15:33:07 594 1

原创 MITRE 1997 Mandarin Broadcast News Speech Translations (HUB-4NE)数据集介绍,官网编号LDC2007T19

MITRE 1997 Mandarin Broadcast News Speech Translations (HUB-4NE,LDC2007T19) 是 MITRE 公司构建、LDC 于 2007 年发布的汉英广播新闻语音翻译数据集,以 1997 年 HUB-4NE 中文广播新闻语音(LDC98S73)为底本,提供带参考译文的语音 - 文本 - 翻译三位一体资源,核心用于语音翻译(ST)、机器翻译(MT)与语音识别(ASR)联合任务。

2026-01-16 15:28:40 538 1

原创 Nationwide Speech Project数据集介绍,官网编号LDC2007S15

Nationwide Speech Project(NSP)是由 Clopper & Pisoni 主导、聚焦美国英语方言声学与感知研究的标准语音语料库,含 60 位不同方言区年轻成人的高质量录音与多类型标注,核心用于方言变异分析、语音识别与感知研究,部分数据可通过 LDC 获取。

2026-01-15 12:06:30 233 1

原创 2004 Spring NIST Rich Transcription (RT-04S) Evaluation Data数据集介绍,官网编号LDC2007S12

2004 Spring NIST Rich Transcription (RT-04S) Evaluation Data(LDC2007S12)是 LDC 发布的 RT-04S 评测专用数据集,与开发集 LDC2007S11 配套,含约 21.3 小时多通道会议语音与标准标注转录,核心用于会议语音识别、说话人分离 / 识别等技术的官方评测与性能验证,2007 年发布,是会议语音丰富转录领域的权威评估基准。

2026-01-15 12:04:53 487 1

原创 2004 Spring NIST Rich Transcription (RT-04S) Development Data数据集介绍,官网编号LDC2007S11

2004 Spring NIST Rich Transcription (RT-04S) Development Data(LDC2007S11)是 LDC 为 NIST RT-04S 会议语音识别评测发布的开发数据集,核心用于多通道会议语音的端点检测、说话人分离与识别、丰富转录模型训练 / 调参,含约 28.7 小时会议语音、多通道录音与完整标注转录,2007 年发布。

2026-01-15 12:01:04 349 1

原创 Mandarin Affective Speech数据集介绍,官网编号LDC2007S09

Mandarin Affective Speech(LDC2007S09,又称 MASC)是 LDC 于 2007 年发布的普通话情感语音数据集,由浙江大学团队采集,含 40 名发音人、约 5.2 小时标注语音与文本,核心用于情感语音识别、韵律特征研究与说话人识别,填补了普通话情感口语标注语料的早期空白。

2026-01-15 11:54:00 359 1

原创 ARL Urdu Speech Database, Training Data数据集介绍,官网编号LDC2007S03

ARL Urdu Speech Database, Training Data(LDC2007S03)是 LDC 发布的乌尔都语朗读式语音训练数据集,由美国陆军研究实验室(ARL)提供、Appen 采集,核心用于乌尔都语语音识别(ASR)模型训练与方言研究,含约 160 名说话人、35.6 小时语音及对应转录文本,2007 年 2 月发布。

2026-01-15 11:48:17 491 1

原创 Gulf Arabic Conversational Telephone Speech & Transcripts数据集介绍,官网编号LDC2006S43、LDC2006T15

Gulf Arabic Conversational Telephone Speech(LDC2006S43)是 LDC 于 2006 年发布的海湾阿拉伯语电话会话语音数据集,核心用于海湾阿拉伯语方言的语音识别(ASR)、说话人识别及口语理解模型训练,包含约 46 小时自发电话会话语音与文本转录,适配真实电话信道下的方言语音技术研发。

2026-01-14 11:28:01 399 1

原创 Korean Broadcast News Speech数据集介绍,官网编号LDC2006S42

Korean Broadcast News Speech 是由 LDC 于 2006 年发布的韩语广播新闻语音数据集(编号 LDC2006S42),核心用于韩语广播新闻语音识别(ASR)、大词汇连续语音识别(LVCSR)及声学 / 语言模型训练,包含锚定与记者的新闻播报语音及文本转录标注,适配开放域新闻场景的语音技术研发。

2026-01-14 11:23:15 355 1

原创 CSLU: Names Release 1.3数据集介绍,官网编号LDC2006S39

CSLU: Names Release 1.3 是由俄勒冈健康与科学大学口语理解中心(CSLU)构建、LDC 于 2009 年发布的英文姓名语音数据集(编号 LDC2006S39),核心用于姓名语音识别(ASR)、发音词典生成与说话人验证系统研发,包含大规模孤立姓名朗读语音及文本、发音标注,适配人名识别与口语交互场景的模型训练与评测。

2026-01-14 11:15:41 592 1

原创 West Point Heroico Spanish Speech数据集介绍,官网编号LDC2006S37

West Point Heroico Spanish Speech 是由美国西点军校(USMA)外语系与技术强化语言学习中心(CTELL)联合墨西哥军事学院(Heroico Colegio Militar)构建、LDC 于 2006 年发布的西班牙语语音数据集(编号 LDC2006S37),核心用于西班牙语语音识别(ASR)、发音建模与语言学习应用开发,包含母语者与非母语者的朗读及提示语音与文本标注,适配军用与教育领域的语音技术研发。

2026-01-14 11:11:57 580 1

原创 HARD 2004 Text数据集介绍,官网编号LDC2005T28

HARD 2004 Text(LDC2005T28)是 DARPA HARD 项目下的英文文本摘要评测数据集,由 LDC 于 2005 年发布,包含 49 组多文档集合(每组 10-30 篇新闻)及人工标注的参考摘要,是多文档摘要与信息融合任务的经典基准资源。

2026-01-14 11:05:46 545 1

原创 Chinese Proposition Bank 1.0数据集介绍,官网编号LDC2005T23

Chinese Proposition Bank 1.0(CPB 1.0,LDC2005T13)是 LDC 于 2005 年发布的中文浅层语义标注语料库,基于 Penn Chinese Treebank(CTB)的句法树添加谓词 - 论元标注,是中文语义角色标注(SRL)的核心基准资源。

2026-01-13 15:18:48 445 1

原创 Arabic Treebank: Part 3 (full corpus) v 2.0 (MPG + Syntactic Analysis)数据集介绍,官网编号LDC2005T23

Arabic Treebank: Part 3 (full corpus) v 2.0(LDC2005T20)是宾夕法尼亚大学阿拉伯语树库(PATB)的第三部分完整语料库,由 LDC 于 2005 年发布,包含约 35 万词现代标准阿拉伯语新闻文本,具备 MPG 形态标注与 Treebank II 式句法分析标注,是阿拉伯语 NLP 研究的核心基准资源。

2026-01-13 15:09:40 466 1

原创 Chinese Gigaword Second Edition数据集介绍,官网编号LDC2005T14

Chinese Gigaword Second Edition(LDC2005T14)是美国语言数据联盟(LDC)于 2005 年发布的大规模中文新闻语料库,总规模约 14 亿汉字,涵盖新华社、中央通讯社(台湾)、新加坡《联合早报》三家权威新闻机构 1991-2004 年的新闻文本,是中文自然语言处理研究的核心基础资源之一。

2026-01-13 15:03:15 530 1

原创 CCGBank: CCG Combinatory Categorical Grammar for Penn Treebank 2 数据集介绍,官网编号LDC2005T13

CCGBank(LDC2005T13)是基于组合范畴语法(CCG)对宾州树库 2(Penn Treebank 2)进行转换与标注的英文句法树库,由宾夕法尼亚大学构建、LDC 于 2005 年发布,是 CCG 句法分析的核心基准资源,可支撑句法解析、语义角色标注等 NLP 任务。

2026-01-13 14:57:21 554 1

原创 Discourse GraphBank数据集介绍,官网编号LDC2005T08

Discourse GraphBank(DGB,又称 GraphBank)是由 Wolf 和 Gibson 于 2005 年提出并构建的篇章级语料库,它采用图结构而非传统树结构来建模语篇连贯关系,弥补了树结构在复杂篇章关系表达上的不足,是 NLP 领域篇章分析的重要早期资源。

2026-01-13 14:38:24 497 1

原创 ACE Time Normalization (TERN) 2004 English Training Data v 1.0数据集介绍,官网编号LDC2005T07

ACE Time Normalization (TERN) 2004 English Training Data v 1.0(LDC2005T07)是 LDC 为 ACE 2004 时间表达式识别与规范化任务发布的英语训练集,核心是带 TIMEX2 标注的时间表达式 + ISO 8601 归一化格式,适配时间抽取、事件时序关联等 NLP 任务,是时间信息处理领域的经典基准资源。

2026-01-12 23:56:44 443 1

原创 Chinese News Translation Text Part 1数据集介绍,官网编号LDC2005T06

Chinese News Translation Text Part 1(LDC2005T06)是 LDC 于 2005 年发布的汉英新闻专线平行语料库,面向 DARPA GALE/TIDES 项目,含 1001 篇新闻(法新社 580 篇 + 新华社 421 篇)、约 47.4 万汉字中文原文与 28.5 万词英文译文,适配机器翻译、跨语言检索与模型基线训练,标注结构化、译文经质控,是汉英新闻翻译领域的经典基准资源。

2026-01-12 23:54:31 477 1

原创 Multiple-Translation Arabic (MTA) Part 2数据集介绍,官网编号LDC2005T05

Multiple-Translation Arabic (MTA) Part 2(LDC2005T05)是 LDC 于 2005 年发布的现代标准阿拉伯语(MSA)多译文平行语料库,核心为法新社(AFP)阿拉伯语新闻文本 + 3 组独立人工英译,适配机器翻译评估、翻译质量自动度量与模型优化,是阿拉伯语 - 英语翻译评测的经典基准资源LDC。

2026-01-12 23:51:23 607 1

原创 Arabic Treebank: Part 1 v 3.0 (POS with full vocalization + syntactic analysis)数据集介绍,官网编号LDC2005T02

Arabic Treebank: Part 1 v3.0(ATB1 v3.0,LDC2011T08)是 LDC 于 2011 年发布的现代标准阿拉伯语(MSA)新闻句法树库,由法新社(AFP)新闻语料构建,含约 16.6 万词 / 2.5K 句,核心标注含完整元音化(含大小写标记)、精细词性(含形态特征)、Penn Treebank II 式短语结构句法树,适配阿拉伯语形态分析、句法解析、机器翻译等 NLP 研发,标注经多轮校验,一致性与完整性达工业级标准。

2026-01-12 23:47:33 587 1

原创 Chinese Treebank 5.0数据集介绍,官网编号LDC2005T01

Chinese Treebank 5.0(CTB5.0,LDC2005T01)是 LDC 于 2005 年发布的 Penn 中文句法树库,以 GB 编码提供 18,782 句新闻语料(约 50.7 万词 / 82.5 万汉字),含分词、词性、句法括号三级标注,采用双轮校验 + 部分盲注仲裁的标注流程,适配句法解析、语义角色标注、机器翻译等研发,是中文 NLP 句法建模的经典基准资源。

2026-01-12 23:44:10 635 1

原创 FORM1 Kinematic Gesture数据集介绍,官网编号LDC2004V01

FORM1 Kinematic Gesture(FORM1,常称 FORM 手势运动学数据集)是由 Carnegie Mellon University 与 TalkBank 联合构建的手势运动学标注语料库,核心用于手势相位检测、运动学特征建模与多模态交互研究,以教学场景的自然手势为样本,采用 FORM 多轨道标注体系记录肢体位置、形状、运动参数,适配手势分割、相位分类等 NLP 与计算机视觉交叉任务。

2026-01-11 00:15:33 921 1

原创 Prague Czech-English Dependency Treebank 1.0数据集介绍,官网编号LDC2004T25

Prague Czech-English Dependency Treebank 1.0(PCEDT 1.0,LDC2004T25)是查尔斯大学 ÚFAL 与 LDC 联合发布的捷克 - 英语平行依存树库,基于 Penn Treebank III 的华尔街日报(WSJ)文本及人工翻译的捷克语对应文本构建,采用功能生成描述(FGD)理论进行形态、分析、深层语义(tectogrammatical)三层标注,适配机器翻译、跨语言句法迁移、语义角色对齐等双语 NLP 任务,是早期平行树库的标杆资源。

2026-01-11 00:12:16 709 1

原创 Arabic Treebank: Part 2 v 2.0数据集介绍,官网编号LDC2004T02

Arabic Treebank: Part 2 v 2.0(LDC2004T02)是 LDC 发布的现代标准阿拉伯语(MSA)句法树库,基于 Al - Hayat 新闻文本构建,含约 14.4 万词的形态 - 句法标注,新增完整元音标注、词元 ID 等特性,适配阿拉伯语句法分析、分词、词性标注等 NLP 任务,是 Penn Arabic Treebank(PATB)的核心组成部分。

2026-01-10 23:57:19 898 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除