fine-grained prosody control专栏

【2019 icassp】Robust and fine-grained prosody control of end-to-end speech synthesis

  • demo page

  • method:设计temporal structure,完成fine-grained的TTS风格控制。可以从speech中抽取embedding,也可以从文本中抽取。

  • 结论:(1)通过调节learned prosody features,可以frame level或者phn level完成生成语音pitch and amplitude的控制。(2)normalize prosody embedding可以使得不同说话人之间的韵律转换更加稳定。

  • prosody emb的维度进行严格的限制,speech side(2),text side (4)。结果发现,各个维度能够实现对pitch , amplitude, length的控制,但是各个维度的特征可能是耦合的。

  • speech side
    在这里插入图片描述

  • prosody embedding 的长度和target speech一致,加入到decoder中只需要按照decoder 生成的rate进行压缩,然后送入attention即可

  • text side
    在这里插入图片描述

  • prosody embedding 的长度和text长度非线性相关,因此不能通过简单的下采样,需要在reference encoder中额外添加attention对齐,ref embedding作为attention的key和value,encoder embedding作为query,然后计算加权和。

  • Prosody normalization

  • 使用speaker prosody mean进行prosody embedding的归一,训练时候按照时间长度取均值,并且存下每个说话人的样本均值。

  • train step & evaluation,都要减去均值

【2020icassp】Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior

  • Guangzhi Sun & 2020icassp
  • Cambridge & Google brain
  • motivation:使用VAE生成fine-grained prosody embedding,合成的语音在token之间的韵律变化不自然。
  • method:使用VQ将latent features离散化,对于inference过程中预测latent embedding再单独训练一个自回归模型做这件事情。

【2020icassp】Fully-hierarchical fine-grained prosody modeling for interpretable speech synthesis

  • 2020 icassp, google brain

  • 阅读笔记
    在这里插入图片描述

  • 两个想法:(1)层级fine-grained latent embedding,word level & phn level,其中 phn level会依赖word level;(2)可解释的CVAE,定义k维latent embedding,每次只预测一维特征,且该特征会将之前预测的total k-1维特征作为参考输入,这样就会更偏向的预测前k-1维特征中没有的信息。

【2021 SLT】

在这里插入图片描述

  • pre-trained NLP对文本进行分词,预测word-level prosody;——reference encoder+VQ作为word prosody extractor,得到的特征用于训练word prosody predictor;
  • FFT encoder的phn emb用于预测phn-level prosody——帧级别的F0用于phn prosody extractor,得到的特征用于训练phn prosody predictor;
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值