0. 说明
VCTK 只有 40 个小时, 不够用. 所以需要读一下 LibriTTS
谢谢辛苦的作者们~
0. 摘要
本文介绍了一种新的语音语料库“LibriTTS”,它是为文本到语音转换而设计的。它来源于LibriSpeech语料库的原始音频和文本材料,该语料库已用于训练和评估自动语音识别系统。新语料库继承了LibriSpeech语料库的理想属性,同时解决了LibriSpeech不太适合文本到语音转换的一些问题。发布的语料库由来自2456个说话者和相应文本的585小时24kHz采样速率的语音数据组成。实验结果表明,在六个评价说话人中,有五个的自然度平均意见得分高于4.0。语料库可从以下网站免费下载 http://www.openslr.org/60/
1. Introduction
语音合成技术研究的重点正转向更具挑战性的任务,如创建多扬声器语音合成系统[6–8],从少量数据构建神经端到端语音合成系统[9],利用少量数据进行语音自适应[8,10,11],研究无监督韵律和说话风格建模[12,13],以及从嘈杂的发现数据构建语音合成系统语音[13,14]
LibriSpeech语料库[15]来源于有声读物 是LibriVox项目的一部分[16]。在这个语料库中有来自2484个说话者的982小时的语音数据。它被设计成在性别和每个说话者的持续时间方面相当平衡。此外,由于它是在非限制性许可下发布的,因此可以用于非商业和商业目的。尽管该语料库最初是为自动语音识别(ASR)研究而设计的,但由于其诱人的属性,如非限制性许可、大量数据和广泛的说话人多样性,它已被用于各种文本到语音(TTS)研究项目[7,8,11]
- W. Ping, K. Peng, A. Gibiansky, S. Arik, A. Kannan, S. Narang, J. Raiman et al., “Deep Voice 3: 2000-speaker neural text-tospeech,” in Proc. ICLR, 2018
- Y. Jia, Y. Zhang, R. Weiss, Q. Wang, J. Shen, F. Ren, Z. Chen et al., “Transfer learning from speaker verification to multispeaker text-to-speech synthesis,” arxiv:1806.04558, 2018
- Y. Chen, Y. Assael, B. Shillingford, D. Budden, S. Reed, H. Zen, A.Wang et al., “Sample efficient adaptive text-to-speech,” arXiv:1809.10460, 2018
然而,在下列情况下,它也具有许多不希望有的特性 考虑将其用于TTS。本文涉及的特性如下:
- 音频文件是16 kHz采样率;16千赫的采样对于ASR目的来说足够高,但是对于实现高质量的TTS来说太低了。现代生产质量TTS系统通常使用24、32、44.1或48千赫的采样率[17、18]
- 语音以静音间隔分开;训练数据语音在长于0.3秒的静默中被分离。为了学习语音的长期特征,例如给定文本的句子级韵律,有必要仅在断句时分割语音
- 所有字母都被规范化为大写,所有标点符号都被删除;大写和标点符号是学习韵律特征的有用特征,如重音和停顿长度
- 段落中段落的位置被丢弃;为了学习句间韵律,需要访问相邻的句子文本或音频,但是缺少该信息
- 一些音频文件甚至在其“干净”子集内也包含显著的背景噪声;在LibriSpeech语料库中,使用《华尔街日报》声学模型的单词错误率低的说话者被指定为“干净的”。因此,“干净的”子集可以包含有噪声的样本