TI 46-Word数据集包含了由16位发言者(八位男性和八位女性)朗读的发音数据。每位发言者都按照包含46个单词的词汇表朗读了26个句子,其中16个句子被指定为训练数据,用于模型训练,而剩下的10个句子则作为测试数据,用于评估模型的性能。
请注意,尽管数据集的目标是为每位发言者收集完整的句子数量,但由于各种原因,一些发言者并未达到这一标准。因此,在实际使用中,用户需要了解并适应这种数据的不完整性。
该语料库是在得克萨斯仪器公司(Texas Instruments)的一个安静且声学封闭的环境中收集的,确保了音频数据的清晰度和质量。数据采集过程中使用了Electro-Voice RE-16动态心形指向麦克风,该麦克风具有出色的音频捕捉能力,能够准确记录发言者的发音细节。音频数据的采样率为12.5kHz,量化位数为12位,这保证了音频数据的准确性和清晰度。
LDC93S9数据集的文件采用NIST SPHERE格式,这是一种专门用于语音处理和识别的文件格式。文件的扩展名为“.wav”,这是一种广泛使用的音频文件格式,便于用户进行数据处理和分析。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复TI 46-WordLDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg