会议:2021 interspeech
作者:panshifeng
单位:microsoft
abstract
motivation:Cross-speaker style transfer TTS
现有技术的痛点:(1)单个的prosody encoder无法提供精确的prosody information;(2)prosody information中还混合有context,speaker,prosody等多种信息。
methods
做一个multi-speaker,multi-prosody的TTS,提供phone-level prosody bottleneck信息控制。-----问题在于:如果么有src_style对应的句子,似乎无法生成target。
cross-speaker style transfer的过程
- source_spk_id+src_style+content 生成prosody feature;
- tar_spk_id+src_styke+content生成encoder output;
- 1+2合成语音。