文章目录
- 【2019 icassp】Robust and fine-grained prosody control of end-to-end speech synthesis
- 【2020icassp】Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior
- 【2020icassp】Fully-hierarchical fine-grained prosody modeling for interpretable speech synthesis
- 【2021 SLT】
【2019 icassp】Robust and fine-grained prosody control of end-to-end speech synthesis
-
method:设计temporal structure,完成fine-grained的TTS风格控制。可以从speech中抽取embedding,也可以从文本中抽取。
-
结论:(1)通过调节learned prosody features,可以frame level或者phn level完成生成语音pitch and amplitude的控制。(2)normalize prosody embedding可以使得不同说话人之间的韵律转换更加稳定。
-
prosody emb的维度进行严格的限制,speech side(2),text side (4)。结果发现,各个维度能够实现对pitch , amplitude, length的控制,但是各个维度的特征可能是耦合的。
-
speech side
-
prosody embedding 的长度和target speech一致,加入到decoder中只需要按照decoder 生成的rate进行压缩,然后送入attention即可
-
text side
-
prosody embedding 的长度和text长度非线性相关,因此不能通过简单的下采样,需要在reference encoder中额外添加attention对齐,ref embedding作为attention的key和value,encoder embedding作为query,然后计算加权和。
-
Prosody normalization
-
使用speaker prosody mean进行prosody embedding的归一,训练时候按照时间长度取均值,并且存下每个说话人的样本均值。
-
train step & evaluation,都要减去均值
【2020icassp】Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior
- Guangzhi Sun & 2020icassp
- Cambridge & Google brain
- motivation:使用VAE生成fine-grained prosody embedding,合成的语音在token之间的韵律变化不自然。
- method:使用VQ将latent features离散化,对于inference过程中预测latent embedding再单独训练一个自回归模型做这件事情。
【2020icassp】Fully-hierarchical fine-grained prosody modeling for interpretable speech synthesis
-
2020 icassp, google brain
-
两个想法:(1)层级fine-grained latent embedding,word level & phn level,其中 phn level会依赖word level;(2)可解释的CVAE,定义k维latent embedding,每次只预测一维特征,且该特征会将之前预测的total k-1维特征作为参考输入,这样就会更偏向的预测前k-1维特征中没有的信息。
【2021 SLT】
- pre-trained NLP对文本进行分词,预测word-level prosody;——reference encoder+VQ作为word prosody extractor,得到的特征用于训练word prosody predictor;
- FFT encoder的phn emb用于预测phn-level prosody——帧级别的F0用于phn prosody extractor,得到的特征用于训练phn prosody predictor;