【阅读论文】Tacotron2,结合wavenet通过mel频谱实现自然语音合成

Tacotron2是Google Brain于2017年提出的一种语音合成框架,它与WaveNet结合,从前端的词嵌入到mel频谱,再到后端的mel频谱到语音,实现自然的语音合成。该模型由声谱预测网络、WaveNet修订版声码器和中间连接层组成,通过梅尔频谱作为低层次的声学中间表示,以生成高质量的语音样本。
摘要由CSDN通过智能技术生成

Tacotron2是由Google Brain 2017年提出来的一个语音合成框架。
自然语音合成框架包括两个部分,分别为前段和后端:
前段,词嵌入->mel频谱,tacotron2
后端,mel频谱->语音,wavenet,waveglow
Tacotron2:一个完整神经网络语音合成方法。模型主要由三部分组成:
声谱预测网络:一个引入注意力机制(attention)的基于循环的Seq2seq的特征预测网络,用于从输入的字符序列预测梅尔频谱的帧序列。
声码器(vocoder):一个WaveNet的修订版,用预测的梅尔频谱帧序列来生成时域波形样本。
中间连接层:使用低层次的声学表征-梅尔频率声谱图来衔接系统的两个部分。
链接地址
论文地址

0,摘要
本文介绍Tacotron2,一种神经网络结构直接从文本合成语音的系统。这种系统包括一个递归的seq2seq的特征映射网络,将字符嵌入(词嵌入)映射到梅尔频谱模型上。然后用改进的WaveNet网络模型作为声码器合成这些光谱图的时域波形。我们的模型取得了一个4.53的均值意见的分(MOS),而专业录音演讲的意见得分为4.58。为验证我们的设计选择,我们当下取消系统关键部分的研究,并评估使用梅尔谱图的影响作为WaveNet模型作为调节输入的影响,,而不是语音学,持续时间和F0特征。我们也进一步证实,使用这种紧凑的声学中间表示

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于WaveNet语音合成技术是一种先进的合成方法,它使用神经网络来生成逼真的人声。 WaveNet是由DeepMind提出的一种深度生成模型,其特点是能够直接生成音频波形。这与传统的语音合成技术相比,不再依赖预先录制的单个音素或单词以及它们之间的过渡。WaveNet模型的输入是文本转成的语言特征,输出则是高质量的合成语音。 WaveNet模型通过采样的方式来生成音频波形,与基于规则的方法相比,其合成语音具有更加自然灵活的特点。这是因为WaveNet模型通过训练大量的语音数据,学习到了音频波形的高级结构和细节,从而使其生成的语音更加接近自然人声。 基于WaveNet语音合成技术还可以实现个性化的语音合成。通过将特定人声的语音样本输入到WaveNet模型进行训练,可以生成与输入样本类似的个性化语音。这为个性化机器助手、虚拟主播等应用提供了可能性。 然而,基于WaveNet语音合成技术也存在一些挑战。首先,由于WaveNet模型的参数量较大,需要较高的计算资源和时间成本。其次,对于长文本的合成,WaveNet模型的生成速度较慢,导致实时性较差。 总的来说,基于WaveNet语音合成技术是一项具有潜力的前沿技术,能够生成高质量的合成语音,实现个性化的语音合成。随着计算能力的提升和算法优化的不断进步,相信基于WaveNet语音合成技术将会在语音交互、语音助手等领域发挥重要作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值