LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech 论文理解

本文介绍LibriTTS,一个从LibriSpeech改进而来的针对文本到语音转换的语料库。它解决了16kHz采样率、静音分割、文本规范化等问题,提供24kHz采样率的音频,适用于高质量TTS。实验表明,LibriTTS在六个说话人中多数达到4.0以上自然度评分。
摘要由CSDN通过智能技术生成

0. 说明

VCTK 只有 40 个小时, 不够用. 所以需要读一下 LibriTTS

谢谢辛苦的作者们~

0. 摘要

本文介绍了一种新的语音语料库“LibriTTS”,它是为文本到语音转换而设计的。它来源于LibriSpeech语料库的原始音频和文本材料,该语料库已用于训练和评估自动语音识别系统。新语料库继承了LibriSpeech语料库的理想属性,同时解决了LibriSpeech不太适合文本到语音转换的一些问题。发布的语料库由来自2456个说话者和相应文本的585小时24kHz采样速率的语音数据组成。实验结果表明,在六个评价说话人中,有五个的自然度平均意见得分高于4.0。语料库可从以下网站免费下载 http://www.openslr.org/60/

1. Introduction

语音合成技术研究的重点正转向更具挑战性的任务,如创建多扬声器语音合成系统[6–8],从少量数据构建神经端到端语音合成系统[9],利用少量数据进行语音自适应[8,10,11],研究无监督韵律和说话风格建模[12,13],以及从嘈杂的发现数据构建语音合成系统语音[13,14]

LibriSpeech语料库[15]来源于有声读物 是LibriVox项目的一部分[16]。在这个语料库中有来自2484个说话者的982小时的语音数据。它被设计成在性别和每个说话者的持续时间方面相当平衡。此外,由于它是在非限制性许可下发布的,因此可以用于非商业和商业目的。尽管该语料库最初是为自动语音识别(ASR)研究而设计的,但由于其诱人的属性,如非限制性许可、大量数据和广泛的说话人多样性,它已被用于各种文本到语音(TTS)研究项目[7,8,11]

  • W. Ping, K. Peng, A. Gibiansky, S. Arik, A. Kannan, S. Narang, J. Raiman et al., “Deep Voice 3: 2000-speaker neural text-tospeech,” in Proc. ICLR, 2018
  • Y. Jia, Y. Zhang, R. Weiss, Q. Wang, J. Shen, F. Ren, Z. Chen et al., “Transfer learning from speaker verification to multispeaker text-to-speech synthesis,” arxiv:1806.04558, 2018
  • Y. Chen, Y. Assael, B. Shillingford, D. Budden, S. Reed, H. Zen, A.Wang et al., “Sample efficient adaptive text-to-speech,” arXiv:1809.10460, 2018

然而,在下列情况下,它也具有许多不希望有的特性 考虑将其用于TTS。本文涉及的特性如下:

  • 音频文件是16 kHz采样率;16千赫的采样对于ASR目的来说足够高,但是对于实现高质量的TTS来说太低了。现代生产质量TTS系统通常使用24、32、44.1或48千赫的采样率[17、18]
  • 语音以静音间隔分开;训练数据语音在长于0.3秒的静默中被分离。为了学习语音的长期特征,例如给定文本的句子级韵律,有必要仅在断句时分割语音
  • 所有字母都被规范化为大写,所有标点符号都被删除;大写和标点符号是学习韵律特征的有用特征,如重音和停顿长度
  •  段落中段落的位置被丢弃;为了学习句间韵律,需要访问相邻的句子文本或音频,但是缺少该信息
  • 一些音频文件甚至在其“干净”子集内也包含显著的背景噪声;在LibriSpeech语料库中,使用《华尔街日报》声学模型的单词
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值