【AM】Tactron阅读笔记

TACOTRON TOWARDS END-TO-END SPEECH SYNTHESIS

传统的TTS系统包括很多组分,如前端文本分析、声学模型和音频合成模块。Tacotron是一个端到端(即输入为英文的character序列,输出为音频)的TTS模型。
总的模型结构
总的模型由Encoder, 基于Attention的decoder, 后处理网络(即将mel谱转换为线性谱的网络,后面还接了一个将线性谱恢复成音频的Griffin-Lim模块)组成。输入是character,输出是raw spectrogram。
在这里插入图片描述

  1. CBHG模块
    CBHG结构说明
    应用了K组1D卷积,卷积核的宽度分别为1-K,卷积核的个数分别为 C 1 − C K C_1-C_K C1CK,分别提取局部和带上下文的信息(分别对应unigram~K-gram),卷积出的feature maps stack到一起,经过时间维度(也就是刚刚做卷积的那个维度)的max pooling,在经过一个1D卷积,将输出的feature与经过1D卷积前的原feature相加(skip connection),得到的feature输出经过多层highway 网络(hightway网络详解:link)提取high-level的特征。经过highway出来的特征图通过Bidirectional-GRU得到encoder最终的序列特征。

  2. Encoder
    通过pre-net(由bottleneck构成),将分立的character转换为连续的vector,送入CBHG中,得到最终的文本序列表示。

  3. Decoder
    每一个decoder时间步都产生attention的query,最终会把带有上下文的vector以及attention的输出拼接起来,另外这里用到了在decoderRNN中用到了GRUs with vertical residual connections。80维的梅尔谱是decoder输出的target,后处理网络负责把梅尔谱转为语音。
    文章中还用到了一个技巧,即一个decode的时间步预测多帧(r帧)的梅尔谱,在实验中发现这种方法能够加快收敛速度,能够帮助attention更快地学到对齐。(这可能是由于一个character对应多个语音帧,相邻的语音帧相关性较强,一次预测一帧的attention时,要在多个时间步attend同一个input token,而一次预测多帧允许attention在训练的时候更快地移动)

不明白的一些点:
1、文中提到了raw spectrogram, Linear-scale spectrogram, Mel-scale spectrogram,分别是什么?有什么区别?
可以从这些spectrogram的横纵轴入手理解
Raw spectrogram:横轴是时间,纵轴时采样点的幅度,因此看起来是音频的波形图。
Linear-scale spectrogram:横轴是时间,纵轴是线性频率,颜色深浅表示该频率分量的大小。
Mel-scale spectrogram:横轴是时间,纵轴是梅尔频率,颜色深浅表示该频率分量的大小。
在这里插入图片描述
2、Griffin-Lim Algorithm
音频的重建急需要幅度谱的信息也需要相位谱的信息,在网络中我们得到的是幅度谱,Griffin-Lim算法link的作用是将幅度谱恢复成音频。
3、对PADDING的处理
常规做法是在计算loss时把PADDING位置的loss屏蔽(MASK)掉,这样会导致inference时,模型不知道句子什么时候结束,因此这里将PADDING也作为一个建模单元。也把PADDING的loss计入总loss。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值