Char2Wav:End-to-End Speech Synthsis

最新推荐文章于 2023-10-25 12:23:05 发布

林林宋

最新推荐文章于 2023-10-25 12:23:05 发布

阅读量720

点赞数

分类专栏： paper笔记

paper笔记专栏收录该内容

162 篇文章 24 订阅

订阅专栏

单位：Montre ́al
作者：Yoshua Bengio
会议：2017 ICLR

遗留问题
location attention
公式5/6没看懂

abstract

Char2Wav，包含两个部分：reader和vocoder。reader由encoder和decoder两部分组成，encoder是双向RNN网络，接受文本/音素作为输入，decoder是带attention的RNN网络，生成vocoder对应的声学特征。Char2Wav的突出贡献是可以用直接从text中学会产生wav。

1. instruction

语音合成是指将文本转化成音频的过程，整个过程的难点可以用两个词语来形容：清晰度(Intelligibility)和自然度(Naturalness)，清晰度是指合成的音频是否是干净的，是否可以被人听懂；而自然度是指合成的音频是否融合了情感上的色彩。
传统的语音合成有两个阶段。第一个阶段是前端：将文本转成语言特征（例如phone, syllable, word，phrase以及句子级的特征）。第二个阶段是后端：将前端的语言特征作为输入，生成语音。wavenet是一个强大的后端。
传统的语音合成通常有两种做法，一种是拼接式，另外一种是参数式。
拼接式(Concatenative TTS)，这种方法需要大量的剪辑音频组成的数据库，然后根据文本内容从数据库中挑选相应的音频片段，把它们拼到一起播放即可。相信大家坐过火车，火车站的语音播报基本上都是这种简单粗暴的拼凑式语音，小编每次听到那种语音播报都觉得十分刺耳，为原本无聊的候车时光增添了更多无聊。这种方法有很多缺点，自然度差是其一，另外一个缺点是需要预先找到足够多的音频片段，不然文本中如果出现数据库中没有的字词就无法工作了。
参数式(Parametric TTS)，这种方法是根据语音的基本参数来合成语音，一个参数式语音合成系统通常包含两个阶段：首先是从文本中提取语言特征，例如音节、停顿时间等，然后提取能够代表音频的特征，如倒谱、频谱、基频等。将这些语言特征和音频特征作为Vocoder的输入，然后即可产生对应文本的音频。这种方法所需要的工作量以及数据库数量相比于合成式都要少，但是，这些特征都是人为手动提取的，是基于我们人类对音频的理解，这些手动提取的特征不一定就完全适合语音合成。既然这样，为什么不把深度学习这种自动提取特征的方法引入呢？于是，深度学习就逐渐被应用到语音合成之中。
下面我们分别看它们各自的特点。
定义一个好的语言特征通常是耗时的，并且是特定语言可用的。本文将前端和后端集成在一起，end-to-end。这样就不需要专业的语言学知识积累，把新语种的合成的主要瓶颈移除。

2. ralated work

本文受益于attention在机器学习等多个领域取得的重大成功，并且ALex Graves证明了attention在语音合成的用处，并将其扩展到handwriting generation。

3.1 Reader

在这里插入图片描述

3.2neural vocoder

语音合成的质量会受到vocoder的限制，为了确保高质量的输出，用SampleRNN- a learned parametric neural module.
SmapleRNN用于建模extremely长时依赖性，其中的垂直结构用于捕捉序列不同时刻的动态。捕捉长的audio step（词级别）和短的audio step之间的长相关很重要。
使用conditional version model学习vocoder 特征序列和对应audio sample之间的映射，每一个时刻的输出取决于它的vocoder特征和过去时刻的输出。

4. training details

先分别训练reader和vocoder，reader的输出目标是WORLD特征，vocoder的输入是WORLD特征。最后，end-to-end的fine-tune整个模型。

5.results

在这里插入图片描述

github有样音和代码开源。

林林宋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Char2Wav:End-to-End Speech Synthsis

单位：Montre ́al作者：Yoshua Bengio会议：2017 ICLR遗留问题location attention公式你5/6abstractChar2Wav，包含两个部分：reader和vocoder。reader由encoder和decoder两部分组成，encoder是双向RNN网络，接受文本/音素作为输入，decoder是带attention的RNN网络，生成vo...
复制链接

扫一扫

专栏目录