Char2Wav:End-to-End Speech Synthsis

单位:Montre ́al
作者:Yoshua Bengio
会议:2017 ICLR

遗留问题
location attention
公式5/6没看懂

abstract

Char2Wav,包含两个部分:reader和vocoder。reader由encoder和decoder两部分组成,encoder是双向RNN网络,接受文本/音素作为输入,decoder是带attention的RNN网络,生成vocoder对应的声学特征。Char2Wav的突出贡献是可以用直接从text中学会产生wav。

1. instruction

语音合成是指将文本转化成音频的过程,整个过程的难点可以用两个词语来形容:清晰度(Intelligibility)和自然度(Naturalness),清晰度是指合成的音频是否是干净的,是否可以被人听懂;而自然度是指合成的音频是否融合了情感上的色彩。
传统的语音合成有两个阶段。第一个阶段是前端:将文本转成语言特征(例如phone, syllable, word,phrase以及句子级的特征)。第二个阶段是后端:将前端的语言特征作为输入,生成语音。wavenet是一个强大的后端。
传统的语音合成通常有两种做法,一种是拼接式,另外一种是参数式。
拼接式(Concatenative TTS),这种方法需要大量的剪辑音频组成的数据库,然后根据文本内容从数据库中挑选相应的音频片段,把它们拼到一起播放即可。相信大家坐过火车,火车站的语音播报基本上都是这种简单粗暴的拼凑式语音,小编每次听到那种语音播报都觉得十分刺耳,为原本无聊的候车时光增添了更多无聊。这种方法有很多缺点,自然度差是其一,另外一个缺点是需要预先找到足够多的音频片段,不然文本中如果出现数据库中没有的字词就无法工作了。
参数式(Parametric TTS),这种方法是根据语音的基本参数来合成语音,一个参数式语音合成系统通常包含两个阶段:首先是从文本中提取语言特征,例如音节、停顿时间等,然后提取能够代表音频的特征,如倒谱、频谱、基频等。将这些语言特征和音频特征作为Vocoder的输入,然后即可产生对应文本的音频。这种方法所需要的工作量以及数据库数量相比于合成式都要少,但是,这些特征都是人为手动提取的,是基于我们人类对音频的理解,这些手动提取的特征不一定就完全适合语音合成。既然这样,为什么不把深度学习这种自动提取特征的方法引入呢?于是,深度学习就逐渐被应用到语音合成之中。
下面我们分别看它们各自的特点。
定义一个好的语言特征通常是耗时的,并且是特定语言可用的。本文将前端和后端集成在一起,end-to-end。这样就不需要专业的语言学知识积累,把新语种的合成的主要瓶颈移除。

2. ralated work

本文受益于attention在机器学习等多个领域取得的重大成功,并且ALex Graves证明了attention在语音合成的用处,并将其扩展到handwriting generation。

3.1 Reader

在这里插入图片描述

3.2neural vocoder

语音合成的质量会受到vocoder的限制,为了确保高质量的输出,用SampleRNN- a learned parametric neural module.
SmapleRNN用于建模extremely长时依赖性,其中的垂直结构用于捕捉序列不同时刻的动态。捕捉长的audio step(词级别)和短的audio step之间的长相关很重要。
使用conditional version model学习vocoder 特征序列和对应audio sample之间的映射,每一个时刻的输出取决于它的vocoder特征和过去时刻的输出。

4. training details

先分别训练reader和vocoder,reader的输出目标是WORLD特征,vocoder的输入是WORLD特征。最后,end-to-end的fine-tune整个模型。

5.results

在这里插入图片描述

github有样音和代码开源。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值