TI 46-Word数据集介绍，官网编号LDC93S9

ldcdata

已于 2024-05-26 16:03:46 修改

阅读量467

点赞数 1

文章标签：深度学习人工智能 python

于 2024-05-13 15:44:02 首次发布

本文链接：https://blog.csdn.net/ldcdata/article/details/138806031

版权

TI 46-Word数据集包含了由16位发言者（八位男性和八位女性）朗读的发音数据。每位发言者都按照包含46个单词的词汇表朗读了26个句子，其中16个句子被指定为训练数据，用于模型训练，而剩下的10个句子则作为测试数据，用于评估模型的性能。

请注意，尽管数据集的目标是为每位发言者收集完整的句子数量，但由于各种原因，一些发言者并未达到这一标准。因此，在实际使用中，用户需要了解并适应这种数据的不完整性。

该语料库是在得克萨斯仪器公司（Texas Instruments）的一个安静且声学封闭的环境中收集的，确保了音频数据的清晰度和质量。数据采集过程中使用了Electro-Voice RE-16动态心形指向麦克风，该麦克风具有出色的音频捕捉能力，能够准确记录发言者的发音细节。音频数据的采样率为12.5kHz，量化位数为12位，这保证了音频数据的准确性和清晰度。

LDC93S9数据集的文件采用NIST SPHERE格式，这是一种专门用于语音处理和识别的文件格式。文件的扩展名为“.wav”，这是一种广泛使用的音频文件格式，便于用户进行数据处理和分析。

获取方法：

方法1：注册LDC账号并加入组织获取数据，官网链接：LDC官网

方法2：关注公众号，回复TI 46-WordLDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ldcdata

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

计算机视觉系列-文本检测常见数据集（6）

段智华的博客

02-07

1100

计算机视觉系列-文本检测常见数据集（6）目录文本检测应用场景ICDIAR数据集CTW数据集ICPR MWI 数据集Total-TextGoogle FSNSCOCO-TextSynthetic data for Text Localisation参考文献基于视频的目标检测文本检测应用场景 ICDIAR数据集 CTW数据集 ICPR MWI 数据集 Total-Text Google FSNS COCO-Text Synthetic data for Text Localisatio

Iris数据集（word）

01-23

Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

参与评论您还未登录，请先登录后发表或查看评论

医学图像分割论文学习：WORD：基于CT图像的腹部器官分割的大规模数据集，基准和临床应用研究（2022）

qq_49603002的博客

04-21

6504

腹部器官分割是腹部疾病诊断、癌症治疗和放射治疗计划的基本和基本任务（Tang 等人，2019年）。准确的分割结果可以为临床诊断和随访提供有价值的信息，如器官大小、位置、边界状态、多个器官的空间关系等。此外，器官分割在临床治疗中起着至关重要的作用，尤其是在基于放射治疗的癌症和肿瘤治疗中（Chen 等人，2021b准确分割有风险的器官可以减轻对癌症区域附近健康器官的潜在影响。然而，在临床实践中，器官分割通常由放射肿瘤学家或放射科医生手动执行。它既耗时又容易出错，需要注释员。

语音识别数据集-TIMIT数据集-中文超详细解析

CJJ的博客

06-09

2万+

TIMIT数据集前言该文章会详细介绍TIMIT数据集的文件组成、内部文件格式以及如何使用TIMIT数据集。同时还会介绍TIMIT是如何组织数据以及划分训练集与测试集的，可以为今后自己构建数据集提供一种思路。关键词：TIMIT数据集、语音识别、音素、人工音频标签；文件基本信息大小：约650MB 创建时间：1986年1月至5月组织形式 /语料库/用处/方言地区/性别+说话者ID/句子...

二十五个深度学习相关公开数据集

yllifesong的博客

07-13

1万+

NIST 资源

cnbird's blog

01-13

826

http://csrc.nist.gov/publications/PubsDrafts.html

关系提取论文总结

weixin_40485502的博客

02-12

2387

文章目录1.模型总结1.2 dependency-based（基于依赖的）2.应用3.模型细说3.1 AGGCNs4.关系提取数据集4.1 句子级4.2 n-ary关系5.各种model的效果5.1 n-ary5.1.1 [PubMed](https://github.com/freesunshine0316/nary-grn) (Peng et al.， 2017)5.2 句子级别5.2.1 T...

从yesno模型入门kaldi语音识别

热门推荐

初级菜鸟

08-16

11万+

yesno模型 kaldi常用工具 http://blog.csdn.net/zjm750617105/article/details/52548798 kaldi官网工具大全http://kaldi-asr.org/doc/tools.html yesno孤立词识别kaldi脚本http://www.cnblogs.com/welen/p/7485151.html 执行 run.s...

语料库————（二）

weixin_33831673的博客

02-15

483

以下是我国20大知名语料库，书到用时方恨少，还不赶快来收藏？！ 1.中央研究院近代汉语标记语料库：http://www.sinica.edu.tw/Early_Mandarin/ 2.中央研究院汉籍电子文献（瀚典全文检索系统）http://www.sinica.edu.tw/ftms-bin/ftmsw3 3.国家现代汉语语料库：http:/...

数据集Freebase-FB13

Crazy的博客

12-13

4031

数据集： FB13是Freebase的子集，包含13种关系和75k种实体。相关论文有TransE、TransH、TransR、TransD以及KG2E。

数据集大全：25个深度学习的开放数据集

weixin_33804990的博客

04-05

1497

介绍 深度学习的关键是训练。无论是从图像处理到语音识别，每个问题都有其独特的细微差别和方法。但是，你可以从哪里获得这些数据？现在你看到的很多研究论文都使用专有数据集，而这些数据集通常不会向公众发布。如果你想学习并应用你新掌握的技能，数据就成为一个问题。在本文中，我们列出了一些高质量的数据集，每个深度学习爱好者都可以使用并改善改进他们模型的性能。拥...

Python----循环神经网络（LSTM：长短期记忆网络）

weixin_64110589的博客

05-23

865

RNN在处理长序列时存在长期依赖问题，即随着序列增长，模型难以记住较早时刻的信息，导致梯度消失或爆炸。为解决这一问题，LSTM（长短期记忆网络）被提出，它通过引入门控机制（输入门、遗忘门、输出门）来选择性保留或丢弃信息，从而更好地捕捉长期依赖关系。LSTM的输入门决定新信息的保留程度，遗忘门控制旧信息的遗忘程度，细胞状态则通过选择性更新来存储记忆。虽然LSTM不能完全避免梯度消失或爆炸，但它通过门控机制显著改善了这一问题，使其在处理长序列时表现更优。

基于pycharm,python,flask,sklearn,orm,mysql，在线深度学习sql语句检测系统

xxcxyxxd的博客

05-24

663

详细视频:【基于pycharm,python,flask,sklearn,orm,mysql，在线深度学习sql语句检测系统-哔哩哔哩】 https://b23.tv/JLQDwNn。

CNN手写数字识别/全套源码+注释可直接运行

2401_87092242的博客

05-21

766

可直接运行的cnn识别手写数字项目

深度学习之-目标检测算法汇总(超全面)

一个不怎么正经的算法工程师的博客~不定期更新一些我所覆盖领域的干货~~~包你满意噢~~

05-22

1414

概括了目前YOLO目标检测模型从YOLOv1到YOLOv12的演进，并介绍了多种改进方法。这些改进包括引入注意力机制、多尺度特征融合、模型轻量化、与其他新技术结合（如Mamba模型、扩散模型等），以及优化损失函数和训练策略。文章还探讨了YOLO在农业、医疗、交通等领域的应用，并展示了其在复杂场景中的检测性能提升。此外，文章介绍了基于Transformer和MLP的目标检测改进方法，以及如何将大模型（如SAM）应用于目标检测任务。这些改进不仅提高了检测精度，还增强了模型的实时性和适应性。

学习深度学习是否要先学习机器学习？

2501_91695603的博客

05-17

1491

不管你后面是不是真的想要从事机器学习或者深度学习这方面，我都希望你能有时间去学习的时候，多多的了解一下 AI 技术，还是那句话，时间紧的情况下，怎么快速的为目标服务是最重要的，先学对自己有用自己需要的内容。就比如我给计算机一些动物的图片，然后告诉计算机哪个是老虎，哪个是狮子，计算机根据我给出的“图片和答案的特征”去学习“老虎为什么是老虎，狮子为什么是狮子”。这三部分看着挺唬人，其实只需要学习需要的内容，如果你的时间稍微宽裕一点，可以花一个半月左右的时间，如果时间紧，那就压在一个月以内一鼓作气的搞定。

计算机视觉与深度学习 ｜ Python实现CEEMDAN-ABC-VMD-DBO-CNN-LSTM时间序列预测（完整源码和数据)

尘世冰封的专栏

05-21

462

以下是一个结合CEEMDAN、ABC优化VMD、DBO优化CNN-LSTM的完整时间序列预测实现方案。该方案包含完整的数据生成、算法实现和模型构建代码。

生成模型——PixelRNN与PixelCNN