AISHELL-3语料库及格式解读

本文链接：https://blog.csdn.net/u010087338/article/details/130156534

AISHELL-3是85小时的中文普通话语音数据库，适用于多说话人合成系统。录音在安静环境下进行，采用高质量麦克风。文章详细介绍了声调、韵律的标记格式，以及数据的阿里标准格式和通用格式，包括音频文件、文本标注和时间戳信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AISHELL-3希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句，可做为多说话人合成系统。录制过程在安静室内环境中，使用高保真麦克风（44.1kHz，16bit）

声调的标记格式

采用数字1、2、3、4、5,代替《汉语拼音方案》中声调阴平（ˉ），阳平（ˊ），上声（ˇ），去声（ˋ），轻声（不标调）这几个标调符号

韵律的标记格式

韵律分成四级，分别用#4，#3，#2， #1表示。

#4 ：

（1）一个完整语意的句子，切除前后可以独立成为一个句子，从听感上调形是完全降下来的，有明显的停顿。（2）如果是以二声词结尾的短句，这个二声的词被拖长音，且与后面是转折的关系的，有明显的停顿。

#3 ：

通常标在一个韵律短语后面，有时会是一个词，从听感上调形是降下来的，但不够完全，不能独立成为一个语意完整的句子。

#2 ：

（1）表示被‘重读’的词或单个字(为了强调后面)，有停顿，调形上有小的变化, 有‘骤停’的感觉。（对于单音节词如果是被‘拖长音’，给#1；如果是‘骤停’要给#2 ）（2）并列关系的词如果被强调重读，给#2；如果是很平滑的，给#1。

#1 ：

只是韵律词的边界，通常没有停顿

声韵母与停顿的标记格式

标注符号采用a，b，d，s四种标记符号进行标注，标注符号的意思如下：

a表示中文汉字的声母。
b表示中文汉字的韵母。
d表示句中的静音长度小于100ms的停顿。
s表示句子的起始点和结束点以及句中大于100ms的停顿。

声韵标注的具体规则

中文汉字拼音的声母用a表示，韵母用b表示。
其中有一些汉字音节以元音开头，称为零声母音节，如a/o/e/ang/eng/en/ai/ei/ao/ou/an/er/，我们用标记点a来进行标注。
其中有一些汉字是特殊读音，仅仅表示鼻子发出的气流，如m/n/ng/，分别对应汉字（呣，嗯，嗯），我们用标记点b来进行标注。
汉字发音为yu/yi/wu/的为整体认读音节，但我们此次把以w，y为声母加韵母的拼音按照声韵进行切分。

举一个例子

我#1就怕#2自己的#1俗气#3亵渎了#2普者黑的#1风景

wo3 jiu4 pa4 zi4 ji3 de5 su2 qi4 xie4 du2 le5 pu2 zhe3 hei1 de5 feng1 jing3

目前KAN-TTS支持两种类型的数据格式：阿里标准格式和通用格式

其中阿里标准格式数据如下:

# 阿里标准格式数据 . ├── interval │ ├── 500001.interval │ ├── 500002.interval │ ├── 500003.interval │ ├── ... │ └── 600010.interval ├── prosody │ └── prosody.txt └── wav ├── 500001.wav ├── 500002.wav ├── ... └── 600010.wav

通用格式数据如下：

# 通用格式数据 . ├── prosody │ └── prosody.txt └── wav ├── 1.wav ├── 2.wav ├── ... └── 9000.wav

wav文件夹下存放了音频文件，prosody文件夹下的.txt文件对应的是音频文件的文本标注， interval文件夹下存放的是音素级别的时间戳标注，通常情况下通用格式数据不会携带时间戳标注，这是两种格式的区别。

如果您的数据不满足上述两种格式要求，请联系我们获取数据标注服务