TIMIT数据集
前言
该文章会详细介绍TIMIT数据集的文件组成、内部文件格式以及如何使用TIMIT数据集。同时还会介绍TIMIT是如何组织数据以及划分训练集与测试集的,可以为今后自己构建数据集提供一种思路。
关键词:TIMIT数据集、语音识别、音素、人工音频标签;
文件
基本信息
- 大小:约650MB
- 创建时间:1986年1月至5月
组织形式
/语料库/用处/方言地区/性别+说话者ID/句子ID.文件类型
- 语料库:TIMIT
- 用处:DOC、TEST、TRAIN
- 方言地区:DR1~DR8
- 性别:F/M
- 说话者ID:3大写字母+1阿拉伯数字
- 句子ID:句子类型(SA/SI/SX)+编号
- 文件类型:wav、txt、wrd、phn
详细介绍请看下文。
大致结构
| 一级目录 | 二级目录 | 三级目录 |
|---|---|---|
| /TIMIT | /DOC | @包含文档 |
| /TEST | /DR1~/DR8 | |
| /TRAIN | /DR1~/DR8 | |
| README.DOC |
@包含文档
prompts.txt(10/31/88):包含所有句子的文本内容+句子种类编号。eg.【She had your dark suit in greasy wash water all year. (sa1)】
spkrinfo.txt(10/15/90):包含所有说话者的信息。
spkrsent.txt(10/15/90):包含每个说话人说的句子号。
timitdic.txt(10/12/90):TIMIT句子中每个单词的音素标识符。
phonecode.doc(10/12/90):说明音素标识规则。
timitdic.doc(10/11/90):说明音素规则。
testset.doc(10/11/90):测试集&划分规则。

内容
背景&开发者
TIMIT语料库是为声学语音知识的获取(模型训练)以及自动语音识别系统(ASR)的评估(模型测试)而构建的,是由国防部赞助,在研究计划署(DARPA-ISTO)、麻省理工学院(MIT)、斯坦福研究院(SRI)、德州仪器(TI)共同努力下完成。
TIMIT= TI+MIT,德州仪器+麻省理工大学? //猜测
包含:6300个句子。
说话人信息
由来自美国8个主要方言地区的630位说话者讲10个句子构成。
说话人分布如下:
| Region(dr) | Male | Female | Total |
|---|---|---|---|
| 1 | 31 (63%) | 18 (27%) | 49 (8%) |
| 2 | 71 (70%) | 31 (30%) | 102 (16%) | <

本文深入解析TIMIT数据集,包括其文件结构、内容、音素分类和训练测试集划分。TIMIT作为语音识别领域的基准,提供详尽的手动标注和多元说话人信息,适用于快速实验和系统性能评估。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



