LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech 论文理解

0. 说明

VCTK 只有 40 个小时, 不够用. 所以需要读一下 LibriTTS

谢谢辛苦的作者们~

0. 摘要

本文介绍了一种新的语音语料库“LibriTTS”,它是为文本到语音转换而设计的。它来源于LibriSpeech语料库的原始音频和文本材料,该语料库已用于训练和评估自动语音识别系统。新语料库继承了LibriSpeech语料库的理想属性,同时解决了LibriSpeech不太适合文本到语音转换的一些问题。发布的语料库由来自2456个说话者和相应文本的585小时24kHz采样速率的语音数据组成。实验结果表明,在六个评价说话人中,有五个的自然度平均意见得分高于4.0。语料库可从以下网站免费下载 http://www.openslr.org/60/

1. Introduction

语音合成技术研究的重点正转向更具挑战性的任务,如创建多扬声器语音合成系统[6–8],从少量数据构建神经端到端语音合成系统[9],利用少量数据进行语音自适应[8,10,11],研究无监督韵律和说话风格建模[12,13],以及从嘈杂的发现数据构建语音合成系统语音[13,14]

LibriSpeech语料库[15]来源于有声读物 是LibriVox项目的一部分[16]。在这个语料库中有来自2484个说话者的982小时的语音数据。它被设计成在性别和每个说话者的持续时间方面相当平衡。此外,由于它是在非限制性许可下发布的,因此可以用于非商业和商业目的。尽管该语料库最初是为自动语音识别(ASR)研究而设计的,但由于其诱人的属性,如非限制性许可、大量数据和广泛的说话人多样性,它已被用于各种文本到语音(TTS)研究项目[7,8,11]

  • W. Ping, K. Peng, A. Gibiansky, S. Arik, A. Kannan, S. Narang, J. Raiman et al., “Deep Voice 3: 2000-speaker neural text-tospeech,” in Proc. ICLR, 2018
  • Y. Jia, Y. Zhang, R. Weiss, Q. Wang, J. Shen, F. Ren, Z. Chen et al., “Transfer learning from speaker verification to multispeaker text-to-speech synthesis,” arxiv:1806.04558, 2018
  • Y. Chen, Y. Assael, B. Shillingford, D. Budden, S. Reed, H. Zen, A.Wang et al., “Sample efficient adaptive text-to-speech,” arXiv:1809.10460, 2018

然而,在下列情况下,它也具有许多不希望有的特性 考虑将其用于TTS。本文涉及的特性如下:

  • 音频文件是16 kHz采样率;16千赫的采样对于ASR目的来说足够高,但是对于实现高质量的TTS来说太低了。现代生产质量TTS系统通常使用24、32、44.1或48千赫的采样率[17、18]
  • 语音以静音间隔分开;训练数据语音在长于0.3秒的静默中被分离。为了学习语音的长期特征,例如给定文本的句子级韵律,有必要仅在断句时分割语音
  • 所有字母都被规范化为大写,所有标点符号都被删除;大写和标点符号是学习韵律特征的有用特征,如重音和停顿长度
  •  段落中段落的位置被丢弃;为了学习句间韵律,需要访问相邻的句子文本或音频,但是缺少该信息
  • 一些音频文件甚至在其“干净”子集内也包含显著的背景噪声;在LibriSpeech语料库中,使用《华尔街日报》声学模型的单词错误率低的说话者被指定为“干净的”。因此,“干净的”子集可以包含有噪声的样本
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
NLP-CHEALCUSSERC(中文医疗客服语料库)是MagicHub(魔盒)开发的一个语料库。这个语料库被设计用于训练和评估中文自然语言处理(NLP)模型,特别是在医疗客服领域。它收集了丰富的中文医疗客服对话数据,以提供一个能够更好理解和回答用户问题的机器学习模型。 NLP-CHEALCUSSERC的设计目的是为了满足日益增长的在线医疗服务需求。该语料库包含大量的医疗对话片段,涵盖了各种常见的健康问题、症状描述、咨询需求和医疗建议等内容。通过使用这个语料库,NLP模型可以更好地理解人们在医疗客服对话中提出的问题,并作出适当的回答和建议。 在MagicHub的开发过程中,NLP-CHEALCUSSERC语料库的质量得到了大量的关注和验证。为了确保数据的准确性和真实性,MagicHub团队使用了专业的医疗知识来审核和验证每一条对话数据。同时,他们还采用了数据脱敏等技术手段,确保对用户隐私的保护。 语料库的信息还可以进行分析和挖掘,以便进一步优化医疗客服系统的性能和用户体验。该语料库还可以用于评估不同的NLP模型,并为训练新的模型提供参考和基准。通过更好地训练和优化NLP模型,中文医疗客服系统可以更好地为用户提供准确和实用的服务,提升整体的客户体验。 总之,NLP-CHEALCUSSERC提供了一个高质量的中文医疗客服语料库,帮助开发和提升NLP模型在医疗领域的效果。通过这个语料库,中文医疗客服系统可以更好地理解用户需求,并提供更有效的解答和建议,为用户提供更好的医疗服务体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值