1. 背景
WaveNet是由谷歌DeepMind提出的深度生成网络,教计算机如何逼真的再现人和乐器的声音,用来生成原始音频波形的深度对抗模型。
其基于扩展卷积网络,使用参数化的文本语音转换方法,直接生成原始语音。扩展卷积网络是一种卷积滤波器有孔的特定卷积网络,允许感受野在深度方向以指数增长,从而有效地覆盖数千个时步。
2. TTS简介
TTS系统通常分为两个不同的类。
2.1 衔接式TTS
每次重新生成时,都是把单个语音片段联合起来,不易扩展,只能重现记忆中的声音片段。
2.2 参数式TTS
创建一个模型用以存储所有要合成语音的音频特征。
3. WaveNet原理
理论上,WaveNet可以看作一个固定步幅和没有池化层的一维卷积层的堆栈;
纯卷积网络在学习如何合成语音方面并不那么有效,WaveNet之上的关键概念是扩展因果卷积,
有时称为带孔卷积(当卷积层应用了滤波器时一些输入将被略过)。