Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis

会议:2021 interspeech
作者:panshifeng
单位:microsoft

demo page

abstract

motivation:Cross-speaker style transfer TTS
现有技术的痛点:(1)单个的prosody encoder无法提供精确的prosody information;(2)prosody information中还混合有context,speaker,prosody等多种信息。

methods

做一个multi-speaker,multi-prosody的TTS,提供phone-level prosody bottleneck信息控制。-----问题在于:如果么有src_style对应的句子,似乎无法生成target。

在这里插入图片描述
在这里插入图片描述

cross-speaker style transfer的过程

  1. source_spk_id+src_style+content 生成prosody feature;
  2. tar_spk_id+src_styke+content生成encoder output;
  3. 1+2合成语音。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值