Fastspeech音素提取

语音合成流程

在这里插入图片描述

端到端语音合成模型(TTS 模型)

在这里插入图片描述

tacotron 2

在这里插入图片描述

encoder部分:类似于wordenbedding放方式进行编码,每个字符对应一个向量,然后对每个vector向量进行类似于contest的交互,使用的交互方式是双向的lstm,能够更好的吸收左右两个方向的信息
decoder:将编码的信息转化为另一种形式的信息,中间使用到tactron2论文中localtion sensitive attention,将两个模态的数据连接起来,可以吸收读音等频谱所需要的信息,最后通过lstm和后处理网络将语音输出出来

TransFormer TTS

在这里插入图片描述
Neural Speech Synthesis with Transformer Network

Deep voice3

在这里插入图片描述
输入是字符和因素合成在一起
然后可以看到输出是有很多个声码器组成的,每个声码器(即文章第一幅图中将频谱转化成音频)侧重的特征点不一样,将不同的特征放在一起进行学习,
Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning

上述三种自回归的语音合成缺陷

在这里插入图片描述
简单说就是attention机制不稳定,会导致漏词或多词;无法控制语速和语调

非自回归语音合成

fast speech

在这里插入图片描述
提出了fast speech的方法,解决了自回归模型的问题,但是有个问题就是生成的语音质量比较差,解决问题的方法是进行知识的蒸馏
此外引入了durationpreditioner的方式进行文本与语音的强对齐,通过强制对齐手段解决了跳词和漏词的现象
引入length regulator来建立文本和语音特征的联系,实现了从文本到语音的映射(端到端)

语音质量评估

在这里插入图片描述

鲁棒性测试

在这里插入图片描述

长度和韵律可控性分析

在这里插入图片描述

音高,能量,音速,音色

在这里插入图片描述

fastspeech的缺点

在这里插入图片描述

fastspeech2

在这里插入图片描述
解决了词长预测不准确和知识蒸馏引入的信息损失

fastspeech2s实现了将文本直接变为波形

模型架构

在这里插入图片描述

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值