Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

Grad-TTS是华为诺亚俄罗斯莫斯科实验室在2021ICML会议上提出的一种新的语音合成技术。该技术借鉴了Denoising Diffusion Probabilistic Models(DPM),用于提高语音生成的速度和质量。相比现有 Tacotron 结构和 Glow-TTS,Grad-TTS通过使用特征生成器和基于DPM的得分解码器,减少了推理时间和发音错误。模型采用正向和反向扩散过程,能在保持高保真度的mel-spec生成上进行权衡,并且仅需10次反向迭代就能生成高质量的语音。此外,Grad-TTS还支持端到端的语音生成,直接生成语音而非mel-spec。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章目录

单位:华为诺亚俄罗斯莫斯科实验室
作者:Vadim Popo Ivan Vovk
会议:2021 ICML

备注:没看完,感觉距离实用比较远就没有仔细研究了

abstract

denoising diffusion probabilistic (DPM)model:一种从噪音中剥离出图像/音频的模型

introduction

现有的tacotron类似的结构生成语音质量很好,但是推理速度慢,且有发音错误;
Glow-TTS使用transformer-Encoder,以及Glow-Deocder,加速的同时减少了发音错误,使用Monotonic Alignment Search algorithm,减少对齐错误;

尝试用简单的分布(通常是正态分布)建模表征逐渐被打乱的前向分布,然后用神经网络建模这个反向的过程。随机微分为DPM提供了计算的基础。

截止目前,DPM vocoder的成功尝试有WaveGrad和DiffWave,但是还没有基于DPM的特征生成器。

在这里插入图片描述
Grad-TTS 包括特征生成器和score-based decoder using recent diffusion probabilistic modelling insights. decoder将输出encoder的输出转换为mel-spec,encoder的输出是高斯noise。为了实现从高斯噪声中重建数据,作者写下传统的正向和反向扩散的通用版本。模型可以在输出高质量的mel-spec以及提升推理速度之间做折中。实验发现,只需要10次反向迭代,就可以生成高质量的mel-spec。还可以做end-to-end TTS,直接生成语音而不是mel-spec。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值