LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech 论文理解

最新推荐文章于 2023-09-18 09:20:40 发布

ruclion

最新推荐文章于 2023-09-18 09:20:40 发布

阅读量3.2k

点赞数 2

分类专栏：研三-语音合成论文文章标签：深度学习

本文链接：https://blog.csdn.net/u013625492/article/details/114868778

版权

本文介绍LibriTTS，一个从LibriSpeech改进而来的针对文本到语音转换的语料库。它解决了16kHz采样率、静音分割、文本规范化等问题，提供24kHz采样率的音频，适用于高质量TTS。实验表明，LibriTTS在六个说话人中多数达到4.0以上自然度评分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0. 说明

VCTK 只有 40 个小时, 不够用. 所以需要读一下 LibriTTS

谢谢辛苦的作者们~

0. 摘要

本文介绍了一种新的语音语料库“LibriTTS”，它是为文本到语音转换而设计的。它来源于LibriSpeech语料库的原始音频和文本材料，该语料库已用于训练和评估自动语音识别系统。新语料库继承了LibriSpeech语料库的理想属性，同时解决了LibriSpeech不太适合文本到语音转换的一些问题。发布的语料库由来自2456个说话者和相应文本的585小时24kHz采样速率的语音数据组成。实验结果表明，在六个评价说话人中，有五个的自然度平均意见得分高于4.0。语料库可从以下网站免费下载 http://www.openslr.org/60/

1. Introduction

语音合成技术研究的重点正转向更具挑战性的任务，如创建多扬声器语音合成系统[6–8]，从少量数据构建神经端到端语音合成系统[9]，利用少量数据进行语音自适应[8，10，11]，研究无监督韵律和说话风格建模[12，13]，以及从嘈杂的发现数据构建语音合成系统语音[13，14]

LibriSpeech语料库[15]来源于有声读物是LibriVox项目的一部分[16]。在这个语料库中有来自2484个说话者的982小时的语音数据。它被设计成在性别和每个说话者的持续时间方面相当平衡。此外，由于它是在非限制性许可下发布的，因此可以用于非商业和商业目的。尽管该语料库最初是为自动语音识别(ASR)研究而设计的，但由于其诱人的属性，如非限制性许可、大量数据和广泛的说话人多样性，它已被用于各种文本到语音(TTS)研究项目[7，8，11]

W. Ping, K. Peng, A. Gibiansky, S. Arik, A. Kannan, S. Narang, J. Raiman et al., “Deep Voice 3: 2000-speaker neural text-tospeech,” in Proc. ICLR, 2018
Y. Jia, Y. Zhang, R. Weiss, Q. Wang, J. Shen, F. Ren, Z. Chen et al., “Transfer learning from speaker verification to multispeaker text-to-speech synthesis,” arxiv:1806.04558, 2018
Y. Chen, Y. Assael, B. Shillingford, D. Budden, S. Reed, H. Zen, A.Wang et al., “Sample efficient adaptive text-to-speech,” arXiv:1809.10460, 2018

然而，在下列情况下，它也具有许多不希望有的特性考虑将其用于TTS。本文涉及的特性如下:

音频文件是16 kHz采样率；16千赫的采样对于ASR目的来说足够高，但是对于实现高质量的TTS来说太低了。现代生产质量TTS系统通常使用24、32、44.1或48千赫的采样率[17、18]
语音以静音间隔分开；训练数据语音在长于0.3秒的静默中被分离。为了学习语音的长期特征，例如给定文本的句子级韵律，有必要仅在断句时分割语音
所有字母都被规范化为大写，所有标点符号都被删除；大写和标点符号是学习韵律特征的有用特征，如重音和停顿长度
段落中段落的位置被丢弃；为了学习句间韵律，需要访问相邻的句子文本或音频，但是缺少该信息
一些音频文件甚至在其“干净”子集内也包含显著的背景噪声；在LibriSpeech语料库中，使用《华尔街日报》声学模型的单词

最低0.47元/天解锁文章