自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 Chinese Treebank 7.0数据集介绍,官网编号LDC2010T07

CTB 7.0数据集包含了大量的中文句子,并且每个句子都经过了详细的句法标注。这些标注包括句法结构、词性、短语边界等信息,有助于研究人员更深入地理解中文句子的语法和语义结构。Chinese Treebank 7.0(简称CTB 7.0)是一个针对中文语言的句法标注语料库,它始于1998年,旨在建立一个具有句法标记的中文句法语料库,以便用于自然语言处理(NLP)和计算语言学的研究。在NLP领域,CTB 7.0数据集被广泛用于句法分析、语义角色标注、依存句法分析等任务的研究和实验。

2024-05-21 23:59:07 219

原创 CSLU: Portland Cellular Telephone Speech Version 1.3数据集介绍,官网编号LDC2008S01

CSLU: Portland Cellular Telephone Speech Version 1.3是一个针对手机通话环境中语音识别的数据集。方法2:关注公众号,回复CSLU: Portland Cellular Telephone Speech Version 1.3。

2024-05-21 23:56:43 238

原创 CSLU: Numbers Version 1.3数据集介绍,官网编号LDC2009S01

方法2:关注公众号,回复CSLU: Numbers Version 1.3。

2024-05-21 23:55:17 353

原创 COMLEX English Syntax Lexicon 数据集介绍,官网编号LDC98L21

COMLEX English Syntax Lexicon 可能是指COMLEX(Comprehensive Osteopathic Medical Licensing Examination,美国综合骨科医学执照考试)中英语部分的语法和词汇表。方法2:关注公众号,回复COMLEX English Syntax Lexicon。

2024-05-14 07:03:05 173

原创 SUSAS数据集介绍,官网编号LDC99S78

例如,对于胎儿超声成像,数据集可能包含胎儿头部、心脏、腹部等部位的图像,并带有相应的解剖结构标签。对于其他类型的超声成像,如乳腺、甲状腺或腹部器官成像,数据集将包含相应部位的图像和标签。然而,由于超声图像的噪声、伪影、低对比度以及操作者依赖等因素,从超声图像中准确分割出解剖结构是一个具有挑战性的任务。此外,这些数据集还可以用于探索新的图像处理技术和算法,以进一步提高超声图像的质量和分辨率。SUSAS数据集通常包含一系列带有标签的超声图像,这些标签通常由医学专家手动绘制,以指示图像中不同解剖结构的边界。

2024-05-14 06:56:04 237

原创 1997 English Broadcast News Speech (HUB4) 数据集介绍,官网编号LDC98S71

对于1997年的English Broadcast News Speech (HUB4),这些数据可能包括各种主题的新闻报道,如政治、经济、社会事件等。这些数据对于语音识别系统的研究和开发具有重要价值,因为它们代表了真实世界中的复杂语音环境,可以帮助系统更好地适应各种语音和口音。HUB4是DARPA(Defense Advanced Research Projects Agency)资助的语音识别项目中的一个子集,旨在推动语音识别技术的进步。是指1997年收集的一系列英语广播新闻节目的语音数据。

2024-05-13 16:25:58 129

原创 1997 English Broadcast News Transcripts (HUB4) 数据集介绍,官网编号LDC98T28

HUB4 是 DARPA(Defense Advanced Research Projects Agency)资助的语音识别项目中的一个子集,旨在推动语音识别技术的进步。对于 1997 年 English Broadcast News Transcripts (HUB4),这些数据可能包括各种主题的新闻报道,如政治、经济、社会事件等。1997 English Broadcast News Transcripts (HUB4) 是指 1997 年收集的一系列英语广播新闻节目的转录文本。

2024-05-13 16:24:21 348 1

原创 1996 CSR HUB4 Language Model数据集介绍,官网编号LDC98T31

在语音识别(ASR)领域,当提到“Language Model”(语言模型)时,我们指的是一种概率模型,用于估计给定上下文中一系列词出现的概率。在1996年的技术背景下,语言模型可能采用了基于统计的方法,如n-gram模型(n元模型)。例如,二元模型(bigram)基于前一个词来预测下一个词,而三元模型(trigram)则基于前两个词来预测下一个词。在语音识别过程中,ASR系统会生成多个可能的词汇序列(候选),然后利用语言模型对这些候选进行打分,选择概率最高的序列作为最终的识别结果。

2024-05-13 16:21:00 332 1

原创 1996 English Broadcast News Transcripts (HUB4) 数据集介绍,官网编号LDC97T22

是 DARPA (Defense Advanced Research Projects Agency) 发起的一个语音识别项目的一部分,旨在推进语音识别技术的发展。数据集通常包括语音录音的转录(即文字版),这些转录是手动生成的,以匹配录音中的语音内容。这些转录对于训练 ASR 系统至关重要,因为它们提供了语音到文本的对应关系。是该项目中使用的一个子集,包含了从 1996 年的广播新闻中收集的大量语音数据。这些数据通常用于训练和评估自动语音识别(ASR)系统。方法2:关注公众号,回复HUB4。

2024-05-13 16:18:25 242 1

原创 CALLFRIEND Vietnamese数据集介绍,官网编号LDC96S60

CALLFRIEND Vietnamese汇聚了60个自然、未经预设的电话交谈记录,每个交谈的时长在5分钟到30分钟不等,累计总时长达到了大约25小时。除了这些交谈内容,语料库还附带了详尽的文档,用以描述参与者的个人信息(包括性别、年龄、教育程度以及被叫电话号码)以及通话的详细情况(如通话质量的优劣、参与交谈的人数等)。值得一提的是,这些电话交谈的双方均为越南语母语者,确保了对话内容的真实性和准确性。同时,所有通话均发生在美国和加拿大的国内地区,进一步保证了数据的广泛性和代表性。

2024-05-13 16:16:03 272

原创 ATIS3 Test Data数据集介绍,官网编号LDC95S26

ATIS数据集最初是为了DARPA(现为DARPA)的ATIS项目而创建的,该项目旨在开发一个能够处理电话上航空旅行信息查询请求的自动化系统。它通常包含一系列用户提出与旅行相关请求的音频记录(例如,“我需要从波士顿飞往洛杉矶”的音频),以及这些录音的相应转录和语义标注,表示用户的意图和所请求的各种信息(例如,出发城市、目的地城市、日期等)。研究人员和开发人员可以使用这个数据集来训练他们的模型,然后在保留的测试集上测试其性能,以了解他们的系统在未见过数据上的泛化能力。

2024-05-13 16:13:32 353

原创 CSR-III Text数据集介绍,官网编号LDC95T6

ARPA(高级研究计划局,现在称为DARPA,即国防高级研究计划局)连续语音识别(CSR)基准测试是一系列旨在评估连续语音识别技术进步的评价。这些基准测试提供了标准化的数据集和评估指标,以便比较不同的研究方法。方法2:关注公众号,回复CSR-III Text。

2024-05-13 16:11:08 240

原创 Mandarin Chinese News Text数据集介绍,官网编号LDC95T13

使用Mandarin Chinese News Text语料库,研究人员可以开展各种自然语言处理任务的研究和实验,推动相关领域的发展。同时,由于LDC语料库的数据质量和标注精度通常较高,因此也被广泛应用于各种自然语言处理系统的训练和评估中。方法2:关注公众号,回复Mandarin Chinese News Text。

2024-05-13 16:05:30 268

原创 Treebank-2数据集介绍,官网编号LDC95T7

Treebank2数据集是一个用于句法分析和自然语言处理研究的大型语料库。它包含了大量经过精心标注的文本数据,这些数据被用来训练和开发句法分析器以及其他自然语言处理系统。

2024-05-13 16:01:41 279

原创 OGI Multilanguage Corpus数据集介绍,官网编号LDC94S17

OGI Multilanguage Corpus收录了来自英语、波斯语(又称波斯文)、法语、德语、印地语、日语、韩语、普通话、西班牙语、泰米尔语和越南语等多种语言使用者的电话回应。除了语音数据外,该语料库还包含了日志文件,这些文件提供了对每个发音的一系列自动测量数据。特别的是,部分发音还经过了自动处理,被分割成更为宽泛的音位类别。数据的采集过程采用了自动系统,该系统会自动接听电话,播放相应语言的数字化提示来请求语音样本,并在特定的时间段内对通话者的回应进行数字化记录。

2024-05-13 15:57:59 333

原创 ATIS3 Training Data数据集介绍,官网编号LDC94S19

ATIS3 Training Data”指的是与ATIS(Airline Travel Information System)数据集相关的第三版训练数据。训练数据(Training Data)在机器学习和深度学习中起着至关重要的作用。它是用来训练模型的数据集,通过让模型学习训练数据中的特征和规律,模型能够学会如何对新的、未见过的数据做出预测或分类。在ATIS3 Training Data中,包含了大量的用户查询和对应的系统响应,这些数据被用来训练模型以识别和理解用户的意图,从而提供准确的航空旅行信息。

2024-05-13 15:54:08 438

原创 ECI Multilingual Text数据集介绍,官网编号LDC94T5

具体来说,这种多语言语料库可以帮助研究人员理解不同语言之间的共性和差异性,通过比较语言之间的相似性和差异性,可以更好地理解语言之间的关系。在机器翻译、跨语言信息检索以及语言对齐等任务中,这种语料库发挥着重要的作用。,它包含了27种(主要是欧洲)语言的9700万个词汇。这个语料库的数据以电子形式存在,涵盖了来自不同领域的文本数据,并且这些文本数据可以用于研究文本分析、文本挖掘、自然语言处理等各种语言相关的应用。方法2:关注公众号,回复ECI Multilingual Text。

2024-05-13 15:52:04 135

原创 TIMIT数据集介绍,官网编号LDC93S1

TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,这些句子由来自美国八个主要方言地区的630个人每人说出给定的10个句子构成。在这个数据集中,70%的说话人是男性,而大多数说话者是成年白人。给定的10个句子中,包括2个方言句子(对于每个人这两个方言句子都是相同的)和5个音素紧凑句子(这5个句子是从MIT所给的450个因素分布平衡的句子中选出,目的是为了尽可能的包含所有的音素对)。由于它包含了大量的语音数据,并且数据已经被仔细地分割和标记,这使得它成为了一个非常有价值的数据集。

2024-05-13 15:48:14 475

原创 TIDIGITS数据集介绍,官网编号LDC93S10

对于TIDIGITS数据集中的语音识别任务,HTK(Hidden Markov Model Toolkit)是一个常用的工具包。HTK识别器需要一个用Standard Lattice Format (SLF)建立的词的网络,该网络描述了词与词之间的转移。可以使用Hparse命令来创建这个词的网络,而。TIDIGITS数据集主要包含11个孤立数字,分别为one、two、three、four、five、six、seven、eight、nine、oh和zero。在数据准备阶段,需要建立任务语法,例如使用类似。

2024-05-13 15:46:07 210

原创 TI 46-Word数据集介绍,官网编号LDC93S9

该语料库是在得克萨斯仪器公司(Texas Instruments)的一个安静且声学封闭的环境中收集的,确保了音频数据的清晰度和质量。音频数据的采样率为12.5kHz,量化位数为12位,这保证了音频数据的准确性和清晰度。每位发言者都按照包含46个单词的词汇表朗读了26个句子,其中16个句子被指定为训练数据,用于模型训练,而剩下的10个句子则作为测试数据,用于评估模型的性能。请注意,尽管数据集的目标是为每位发言者收集完整的句子数量,但由于各种原因,一些发言者并未达到这一标准。

2024-05-13 15:44:02 235

转载 ACC1.0数据集介绍,编号LDC2017T14

Ancient Chinese Corpus 1.0 是一个古汉语数据集,其文件结构如下:

2023-10-17 00:11:49 52 2

原创 Ontonotes 3.0 数据集介绍,编号LDC2009T24

Ontontoes 3.0 数据集常用于文本任务,其文件结构如下:

2023-10-16 23:50:19 74

原创 CAMR1.0数据集介绍,编号LDC2019T07

AMR是一种基于图的语义表示方法,旨在捕获句子的完整意义,而不仅仅是其句法结构。CAMR1.0数据集为中文的自然语言处理研究,尤其是语义理解和生成任务,提供了宝贵的资源。通过在该数据集上进行模型训练和评估,可以验证和改进语义理解和生成技术,推动中文自然语言处理技术的发展。同时,CAMR1.0数据集也为其他相关任务,如问答系统、信息抽取等提供了有价值的语义资源。每个AMR标注都是一个有向无环图(DAG),图中的节点代表概念(如实体、事件、属性等),边代表这些概念之间的关系。

2023-10-16 23:37:34 47

原创 AMR1.0数据集介绍,LDC2014T12

AMR1.0数据集常用语文本处理,其文件结构如下:

2023-10-16 23:34:59 24

转载 CTB8.0数据集介绍,编号LDC2013T21

Chinese Treebank 8.0 是一个树库数据集,其文件结构如下:

2023-10-16 23:23:14 84 2

转载 SWB数据集介绍,编号LDC97S62

Switchboard 是一个语音数据集,其文件结构如下:

2023-10-16 23:14:33 65 2

转载 RST-DT数据集介绍,编号LDC2002T07

RST Discourse Treebank 是一个树库数据集,其文件结构如下:

2023-10-16 23:10:51 84 5

原创 CPB2.0数据集介绍,编号LDC2008T07

Chinese Proposition Bank 2.0数据集是一个树库数据集,其文件结构如下:

2023-10-16 23:08:10 36 1

转载 ACE2004数据集介绍,编号LDC2005T09

它是由美国国家情报总监办公室(Office of the Director of National Intelligence)赞助的一个项目的一部分,旨在推动自动内容提取技术的发展,以支持文本形式的人类语言的自动处理。实体标注指定了文章中的具体实体,如人物、组织、地点等,而实体关系标注则指定了这些实体之间的关系,如就业关系、成立关系等。除了实体和实体关系标注,ACE2004数据集还提供了其他信息,如文章的元数据、核心指称(coreference)信息等。ACE2004数据集的一个重要特点是其多语言支持。

2023-10-12 23:35:09 220 2

转载 Chinese Gigaword数据集介绍,编号LDC2011T13

Chinese Gigaword是一个语音数据集,其文件结构如下:

2023-10-12 23:31:32 104 2

原创 CTB7.0数据集介绍,编号LDC2010T07

ctb7.0是一个树库数据集,其文件结构如下:

2023-10-12 23:25:21 40

转载 AMR2.0数据集介绍,编号LDC2017T10

AMR2.0数据集常用于文本任务,其文件结构如下:

2023-10-12 23:15:18 64 2

转载 HKUST数据集介绍,编号LDC2005S15

HKUST数据集包含了大量的语音样本,这些样本可能来自不同的说话者、不同的语音环境(如安静环境、嘈杂环境等)以及不同的语音任务(如朗读、对话等)。通过对这些语音样本进行标注和处理,研究人员可以训练出更加准确、鲁棒的语音识别模型,以应对各种复杂的语音场景。通过使用这个数据集,研究人员可以更加深入地了解语音信号的特性,探索更加先进的语音识别算法和技术,推动自然语言处理领域的发展。在HKUST数据集中,每个语音样本都包含了详细的标注信息,如语音的起始时间、结束时间、说话者的身份、语音的文本内容等。

2023-10-12 23:09:43 111 2

转载 Timebank数据集介绍,编号LDC2006T08

TimeBank数据集,特别是TimeBank 1.2,是一个专注于时间信息抽取和表示的数据集。这些注释详细标注了文本中的时间信息,如日期、时间、持续时间等,以及事件和时间之间的时间联系。需要注意的是,由于时间信息的复杂性和多样性,TimeBank数据集也具有一定的挑战性和难度。因此,在使用该数据集时,需要充分考虑到时间信息的特性和复杂性,并采用适当的模型和方法来进行处理。通过在这个数据集上进行模型训练和评估,研究人员可以评估他们的模型在理解和处理时间信息方面的性能。

2023-10-12 23:01:22 69 2

原创 Ontonotes4.0数据集介绍,编号LDC2011T03

Ontonotes 4.0是一个新闻数据集,其文件结构如下:

2023-10-12 22:55:02 143

转载 CCB数据集介绍,编号LDC2020T01

这个数据集可能包含了大量的中文文本数据,并提供了这些文本的句法结构信息,这些信息以树形结构表示,有助于揭示文本中句子各成分之间的关系,如主语、谓语、宾语等。这个数据集可能包含了大量的中文文本数据,并提供了这些文本的句法结构信息,这些信息以树形结构表示,有助于揭示文本中句子各成分之间的关系,如主语、谓语、宾语等。然而,具体的文件结构、数据内容和使用方法可能会因数据集的具体版本和发布者的不同而有所变化。然而,具体的文件结构、数据内容和使用方法可能会因数据集的具体版本和发布者的不同而有所变化。

2023-10-12 22:50:44 56 2

转载 TIMIT数据集介绍,编号LDC93S1

TIMIT是一个由语言数据联盟(Linguistic Data Consortium, LDC)发布的数据集,它主要用于自然语言处理(NLP)和计算语言学(Computational Linguistics)领域的研究。该数据集包含了大量的文本数据和相关的语言学标注,这些标注有助于研究人员更深入地理解和分析文本的语言结构、语义和句法特征。LDC93S1 在NLP领域的研究中具有重要意义,它为研究人员提供了一个标准化和可比较的基准数据集,用于评估不同NLP技术的性能和效果。

2023-10-12 22:48:05 269 2

转载 TDT5数据集介绍,编号LDC2006T18

LDC2006T18 数据集在 TDT 研究领域具有广泛的影响,因为它提供了一个标准化和可比较的基准数据集,用于评估不同算法和模型的性能。许多研究人员和开发者都使用这个数据集来开发新的 TDT 技术,并将其应用于各种实际场景中,如新闻分析、社交媒体监控等。这个数据集包含了从多个来源(如新闻网站、通讯社等)收集的文本数据,并进行了详细的标注。标注通常包括故事的边界、故事的主题标签、以及可能的其他元数据。这些数据使得研究人员能够开发算法和模型来自动检测文本中的主题,并跟踪这些主题随时间的发展。

2023-10-12 22:29:06 92 2

转载 Treebank3数据集介绍,编号LDC99T42

它包含了大量的句子,并为每个句子提供了详细的句法结构信息,这些信息以树形结构表示。这种树形结构有助于揭示句子中各个成分之间的关系,如主语、谓语、宾语等,从而有助于理解句子的含义。这个数据集由米切尔·P·马库斯、比阿特丽斯·圣托里尼、玛丽·安·马尔辛凯维奇和安·泰勒等人创建,并于1999年由语言数据联盟(LDC)发布。与Treebank 2相比,Treebank 3进行了更新和扩展,补充了一些新的内容。这使得Treebank 3成为一个更加全面和丰富的数据集,适用于各种NLP任务的研究和开发。

2023-10-12 22:22:05 76 2

转载 ERE-EN数据集介绍,编号LDC2015E78

Rich ERE数据集常用于关系抽取任务,文件结构如下:

2023-09-25 01:19:22 77 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除