【AM】Tactron阅读笔记

最新推荐文章于 2023-10-13 20:11:55 发布

cxxx17

最新推荐文章于 2023-10-13 20:11:55 发布

阅读量835

点赞数 1

分类专栏： TTS学习笔记 TTS论文阅读文章标签：人工智能神经网络

本文链接：https://blog.csdn.net/weixin_42262721/article/details/107371764

版权

TTS学习笔记同时被 2 个专栏收录

26 篇文章 8 订阅

订阅专栏

TTS论文阅读

26 篇文章 6 订阅

订阅专栏

TACOTRON TOWARDS END-TO-END SPEECH SYNTHESIS

传统的TTS系统包括很多组分，如前端文本分析、声学模型和音频合成模块。Tacotron是一个端到端（即输入为英文的character序列，输出为音频）的TTS模型。
总的模型结构：
总的模型由Encoder, 基于Attention的decoder, 后处理网络（即将mel谱转换为线性谱的网络，后面还接了一个将线性谱恢复成音频的Griffin-Lim模块）组成。输入是character，输出是raw spectrogram。
在这里插入图片描述

CBHG模块

应用了K组1D卷积，卷积核的宽度分别为1-K，卷积核的个数分别为 $C_1-C_K$ ，分别提取局部和带上下文的信息（分别对应unigram~K-gram），卷积出的feature maps stack到一起，经过时间维度（也就是刚刚做卷积的那个维度）的max pooling，在经过一个1D卷积，将输出的feature与经过1D卷积前的原feature相加（skip connection），得到的feature输出经过多层highway 网络（hightway网络详解：link）提取high-level的特征。经过highway出来的特征图通过Bidirectional-GRU得到encoder最终的序列特征。
Encoder
通过pre-net（由bottleneck构成），将分立的character转换为连续的vector，送入CBHG中，得到最终的文本序列表示。
Decoder
每一个decoder时间步都产生attention的query，最终会把带有上下文的vector以及attention的输出拼接起来，另外这里用到了在decoderRNN中用到了GRUs with vertical residual connections。80维的梅尔谱是decoder输出的target，后处理网络负责把梅尔谱转为语音。
文章中还用到了一个技巧，即一个decode的时间步预测多帧（r帧）的梅尔谱，在实验中发现这种方法能够加快收敛速度，能够帮助attention更快地学到对齐。（这可能是由于一个character对应多个语音帧，相邻的语音帧相关性较强，一次预测一帧的attention时，要在多个时间步attend同一个input token，而一次预测多帧允许attention在训练的时候更快地移动）

不明白的一些点：
1、文中提到了raw spectrogram, Linear-scale spectrogram, Mel-scale spectrogram，分别是什么？有什么区别？
可以从这些spectrogram的横纵轴入手理解
Raw spectrogram：横轴是时间，纵轴时采样点的幅度，因此看起来是音频的波形图。
Linear-scale spectrogram：横轴是时间，纵轴是线性频率，颜色深浅表示该频率分量的大小。
Mel-scale spectrogram：横轴是时间，纵轴是梅尔频率，颜色深浅表示该频率分量的大小。
在这里插入图片描述
2、Griffin-Lim Algorithm
音频的重建急需要幅度谱的信息也需要相位谱的信息，在网络中我们得到的是幅度谱，Griffin-Lim算法link的作用是将幅度谱恢复成音频。
3、对PADDING的处理
常规做法是在计算loss时把PADDING位置的loss屏蔽（MASK）掉，这样会导致inference时，模型不知道句子什么时候结束，因此这里将PADDING也作为一个建模单元。也把PADDING的loss计入总loss。