【阅读论文】Tacotron2，结合wavenet通过mel频谱实现自然语音合成

最新推荐文章于 2024-06-09 09:42:14 发布

.云哲.

最新推荐文章于 2024-06-09 09:42:14 发布

阅读量1.1k

点赞数

分类专栏：阅读论文

本文链接：https://blog.csdn.net/luolinll1212/article/details/104038351

版权

Tacotron2是Google Brain于2017年提出的一种语音合成框架，它与WaveNet结合，从前端的词嵌入到mel频谱，再到后端的mel频谱到语音，实现自然的语音合成。该模型由声谱预测网络、WaveNet修订版声码器和中间连接层组成，通过梅尔频谱作为低层次的声学中间表示，以生成高质量的语音样本。

摘要由CSDN通过智能技术生成

Tacotron2是由Google Brain 2017年提出来的一个语音合成框架。
自然语音合成框架包括两个部分，分别为前段和后端：
前段，词嵌入->mel频谱，tacotron2
后端，mel频谱->语音，wavenet,waveglow
Tacotron2:一个完整神经网络语音合成方法。模型主要由三部分组成：
声谱预测网络：一个引入注意力机制（attention）的基于循环的Seq2seq的特征预测网络，用于从输入的字符序列预测梅尔频谱的帧序列。
声码器（vocoder）：一个WaveNet的修订版，用预测的梅尔频谱帧序列来生成时域波形样本。
中间连接层：使用低层次的声学表征-梅尔频率声谱图来衔接系统的两个部分。
链接地址
 论文地址

0，摘要
本文介绍Tacotron2，一种神经网络结构直接从文本合成语音的系统。这种系统包括一个递归的seq2seq的特征映射网络，将字符嵌入(词嵌入)映射到梅尔频谱模型上。然后用改进的WaveNet网络模型作为声码器合成这些光谱图的时域波形。我们的模型取得了一个4.53的均值意见的分(MOS)，而专业录音演讲的意见得分为4.58。为验证我们的设计选择，我们当下取消系统关键部分的研究，并评估使用梅尔谱图的影响作为WaveNet模型作为调节输入的影响，，而不是语音学，持续时间和F0特征。我们也进一步证实，使用这种紧凑的声学中间表示

最低0.47元/天解锁文章

.云哲.

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【阅读论文】Tacotron2，结合wavenet通过mel频谱实现自然语音合成

Tacotron2是由Google Brain 2017年提出来的一个语音合成框架。自然语音合成框架包括两个部分，分别为前段和后端：前段，词嵌入->mel频谱，tacotron2后端，mel频谱->语音，wavenet,waveglowTacotron2:一个完整神经网络语音合成方法。模型主要由三部分组成：声谱预测网络：一个引入注意力机制（attention）的基于循环的Se...
复制链接

扫一扫

专栏目录