语音合成(TTS)论文优选:DenoiSpeech: Denoising Text to Speech with Frame-Level Noise Modeling

浙江大学和亚洲微软合作的DenoiSpeech论文提出了一种针对少量带噪数据的高质量语音合成方法。通过帧级噪声建模,该系统能在不损害语音信号的情况下,有效利用噪声数据进行合成。实验表明,DenoiSpeech在去除噪声方面优于现有方案,适用于数据量有限的个性化定制场景。
摘要由CSDN通过智能技术生成

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

DenoiSpeech: Denoising Text to Speech with Frame-Level Noise Modeling

本篇文章是浙江大学,亚洲微软在2020.12.18更新的文章,主要做少数据量带噪数据进行高质量合成的研究,本文主要思想是对帧级别的噪声进行学习,学习粒度更小,结果更好,具体的文章链接

https://arxiv.org/pdf/2012.09547.pdf (这种的研究最主要的应用还是20多句话的个性化定制)

1 背景

虽然现在的语音合成系统可以合成高质量的音频,但对训练的数据质量有极高的要求和较高的成本,因此使用大量的带噪数据进行语音合成引起产业界和工业界的关注,尤其是手机录制20句话的个性化定制。目前,对于带噪数据的训练主要包含两种方案:1)使用去噪算法进行去噪,这种方法也会造成语音信号的损伤;2)添加noise embedding来标注noise类型,但该种方法是句子级别。本文提出了帧级别的noise标注,使用带噪数据能够获取较干净的语音合成。

2 详细设计

 本文提出的系统为DenoiSpeech,如图1的(a)所示。首先,音素先输入到phoneme encoder中,然后输入到length

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值