开源语音数据集
- 英文数据集:
- LibriSpeech ASR corpus:该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在kaldi-asr.org和语言模型上进行了训练,适合评估。
https://www.openslr.org/12
Mini LibriSpeech ASR corpus:用于回归测试的一个子集 http://www.openslr.org/31/
-
TED-LIUM:http://www.openslr.org/7/
TED-LIUMv2:http://www.openslr.org/19/
TED-LIUM Release 3:https://www.openslr.org/51/ -
VoxForge:该数据集是带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。
http://www.voxforge.org/
https://voice.mozilla.org/zh-CN/data -
TIMIT数据集 百度云链接:https://pan.baidu.com/s/1YJNIFdBiSPqebTq_GyOdog 密码:sqw7
-
Free ST American English Corpus:http://www.openslr.org/45/
- 中文数据集
-
THCHS-30
THCHS-30是在安静的办公室环境下,通过单个碳粒麦克风录取的,总时长超过30个