fine-grained prosody control专栏

林林宋

已于 2022-03-30 16:20:13 修改

阅读量2.4k

点赞数 2

分类专栏： paper笔记文章标签：人工智能深度学习

于 2022-03-28 17:59:52 首次发布

本文链接：https://blog.csdn.net/qq_40168949/article/details/123705708

版权

162 篇文章 24 订阅

订阅专栏

【2019 icassp】Robust and fine-grained prosody control of end-to-end speech synthesis

demo page
method：设计temporal structure，完成fine-grained的TTS风格控制。可以从speech中抽取embedding，也可以从文本中抽取。
结论：（1）通过调节learned prosody features，可以frame level或者phn level完成生成语音pitch and amplitude的控制。（2）normalize prosody embedding可以使得不同说话人之间的韵律转换更加稳定。
prosody emb的维度进行严格的限制，speech side（2），text side (4)。结果发现，各个维度能够实现对pitch , amplitude， length的控制，但是各个维度的特征可能是耦合的。
speech side
prosody embedding 的长度和target speech一致，加入到decoder中只需要按照decoder 生成的rate进行压缩，然后送入attention即可
text side
prosody embedding 的长度和text长度非线性相关，因此不能通过简单的下采样，需要在reference encoder中额外添加attention对齐，ref embedding作为attention的key和value，encoder embedding作为query，然后计算加权和。
Prosody normalization
使用speaker prosody mean进行prosody embedding的归一，训练时候按照时间长度取均值，并且存下每个说话人的样本均值。
train step & evaluation，都要减去均值

Guangzhi Sun & 2020icassp
Cambridge & Google brain
- demo page
motivation：使用VAE生成fine-grained prosody embedding，合成的语音在token之间的韵律变化不自然。
method：使用VQ将latent features离散化，对于inference过程中预测latent embedding再单独训练一个自回归模型做这件事情。

2020 icassp, google brain
阅读笔记
两个想法：（1）层级fine-grained latent embedding，word level & phn level，其中 phn level会依赖word level；（2）可解释的CVAE，定义k维latent embedding，每次只预测一维特征，且该特征会将之前预测的total k-1维特征作为参考输入，这样就会更偏向的预测前k-1维特征中没有的信息。

在这里插入图片描述

pre-trained NLP对文本进行分词，预测word-level prosody；——reference encoder+VQ作为word prosody extractor，得到的特征用于训练word prosody predictor；
FFT encoder的phn emb用于预测phn-level prosody——帧级别的F0用于phn prosody extractor，得到的特征用于训练phn prosody predictor；

关注

专栏目录