AISHELL-3希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)
声调的标记格式
采用数字1、2、3、4、5,代替《汉语拼音方案》中声调阴平(ˉ),阳平(ˊ),上声(ˇ),去声(ˋ),轻声(不标调)这几个标调符号
韵律的标记格式
韵律分成四级,分别用#4,#3,#2, #1表示。
#4 :
(1)一个完整语意的句子,切除前后可以独立成为一个句子,从听感上调形是完全降下来的,有明显的停顿。 (2)如果是以二声词结尾的短句,这个二声的词被拖长音,且与后面是转折的关系的,有明显的停顿。
#3 :
通常标在一个韵律短语后面,有时会是一个词,从听感上调形是降下来的,但不够完全,不能独立成为一个语意完整的句子。
#2 :
(1)表示被‘重读’的词或单个字(为了强调后面),有停顿,调形上有小的变化, 有‘骤停’的感觉。 (对于单音节词如果是被‘拖长音’,给#1;如果是‘骤停’要给#2 ) (2)并列关系的词如果被强调重读,给#2;如果是很平滑的,给#1。
#1 :
只是韵律词的边界,通常没有停顿
声韵母与停顿的标记格式
标注符号采用a,b,d,s四种标记符号进行标注,标注符号的意思如下:
- a表示中文汉字的声母。
- b表示中文汉字的韵母。
- d表示句中的静音长度小于100ms的停顿。
- s表示句子的起始点和结束点以及句中大于100ms的停顿。
声韵标注的具体规则
- 中文汉字拼音的声母用a表示,韵母用b表示。
- 其中有一些汉字音节以元音开头,称为零声母音节,如a/o/e/ang/eng/en/ai/ei/ao/ou/an/er/,我们用标记点a来进行标注。
- 其中有一些汉字是特殊读音,仅仅表示鼻子发出的气流,如m/n/ng/,分别对应汉字(呣,嗯,嗯),我们用标记点b来进行标注。
- 汉字发音为yu/yi/wu/的为整体认读音节,但我们此次把以w,y为声母加韵母的拼音按照声韵进行切分。
举一个例子
我#1就怕#2自己的#1俗气#3亵渎了#2普者黑的#1风景 wo3 jiu4 pa4 zi4 ji3 de5 su2 qi4 xie4 du2 le5 pu2 zhe3 hei1 de5 feng1 jing3
目前KAN-TTS支持两种类型的数据格式:阿里标准格式和通用格式
其中阿里标准格式数据如下:
# 阿里标准格式数据 . ├── interval │ ├── 500001.interval │ ├── 500002.interval │ ├── 500003.interval │ ├── ... │ └── 600010.interval ├── prosody │ └── prosody.txt └── wav ├── 500001.wav ├── 500002.wav ├── ... └── 600010.wav
通用格式数据如下:
# 通用格式数据 . ├── prosody │ └── prosody.txt └── wav ├── 1.wav ├── 2.wav ├── ... └── 9000.wav
wav
文件夹下存放了音频文件,prosody
文件夹下的.txt
文件对应的是音频文件的文本标注, interval
文件夹下存放的是音素级别的时间戳标注,通常情况下通用格式数据不会携带时间戳标注,这是两种格式的区别。
如果您的数据不满足上述两种格式要求,请联系我们获取数据标注服务