Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis实验部分
我们使用两个公共数据集用于训练语音合成网络和声码器网络。
1、VCTK包含44小时得语音,来自于109个发言者,主要是英国方言。
我们把该样本降采样到24khz,修剪掉前后无声区,并且将其分成三个子集:训练集,验证集(包含和训练集相同得发言者),测试集(含有11个来自训练和验证集得发言者)
2、LibriSpeech由两个清洗过得训练集融合组成,包括1172名发言人的436小时演讲,采样于1...
翻译
2019-09-04 18:30:58 ·
601 阅读 ·
1 评论