语音识别数据集-TIMIT数据集-中文超详细解析

本文深入解析TIMIT数据集,包括其文件结构、内容、音素分类和训练测试集划分。TIMIT作为语音识别领域的基准,提供详尽的手动标注和多元说话人信息,适用于快速实验和系统性能评估。
摘要由CSDN通过智能技术生成

TIMIT数据集

前言

该文章会详细介绍TIMIT数据集的文件组成、内部文件格式以及如何使用TIMIT数据集。同时还会介绍TIMIT是如何组织数据以及划分训练集与测试集的,可以为今后自己构建数据集提供一种思路。
关键词:TIMIT数据集、语音识别、音素、人工音频标签;

文件

基本信息

  • 大小:约650MB
  • 创建时间:1986年1月至5月

组织形式

/语料库/用处/方言地区/性别+说话者ID/句子ID.文件类型

  • 语料库:TIMIT
  • 用处:DOC、TEST、TRAIN
  • 方言地区:DR1~DR8
  • 性别:F/M
  • 说话者ID:3大写字母+1阿拉伯数字
  • 句子ID:句子类型(SA/SI/SX)+编号
  • 文件类型:wav、txt、wrd、phn

详细介绍请看下文。

大致结构

一级目录 二级目录 三级目录
/TIMIT /DOC @包含文档
/TEST /DR1~/DR8
/TRAIN /DR1~/DR8
README.DOC

@包含文档

  • prompts.txt(10/31/88):包含所有句子的文本内容+句子种类编号。eg.【She had your dark suit in greasy wash water all year. (sa1)】

  • spkrinfo.txt(10/15/90):包含所有说话者的信息

  • spkrsent.txt(10/15/90):包含每个说话人说的句子号

  • timitdic.txt(10/12/90):TIMIT句子中每个单词的音素标识符

  • phonecode.doc(10/12/90):说明音素标识规则

  • timitdic.doc(10/11/90):说明音素规则

  • testset.doc(10/11/90):测试集&划分规则

TIMIT文件结构

内容

背景&开发者

TIMIT语料库是为声学语音知识的获取(模型训练)以及自动语音识别系统(ASR)的评估(模型测试)而构建的,是由国防部赞助,在研究计划署(DARPA-ISTO)、麻省理工学院(MIT)、斯坦福研究院(SRI)、德州仪器(TI)共同努力下完成。

TIMIT= TI+MIT,德州仪器+麻省理工大学? //猜测

包含:6300个句子。

说话人信息

由来自美国8个主要方言地区的630位说话者讲10个句子构成。

说话人分布如下:

<
Region(dr) Male Female Total
1 31 (63%) 18 (27%) 49 (8%)
2 71 (70%) 31 (30%) 102 (16%)
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值