Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis

林林宋

已于 2022-12-30 17:28:43 修改

阅读量233

点赞数

分类专栏： paper笔记文章标签：语音识别人工智能

于 2022-05-20 14:07:06 首次发布

原文链接：https://arxiv.org/abs/2107.12562

版权

162 篇文章 24 订阅

订阅专栏

作者：
单位：
会议：

风格迁移的事情一直没做好主要有两个原因：（1）单条语音中得到的style embedding很难实现任意文本的细粒度风格控制；（2）style embedding中的content/text, prosody, and speaker timbre高度耦合，因此想要独立的控制其中一个部分很难。

风格迁移的意义：传统的风格迁移是让说话人录制多种风格的据用于合成，但是有的场景下没有说话人多种风格的数据（或者说话人无法录制指定风格的数据）， cross-speaker style transfer就非常重要了。
speaking style transfer分成：

prosody transfer：txt-paired reference speech拿到细粒度的embedding，但是问题是真实场景中的pair数据（reference speech的文本和要合成的文本是一致的）很难获得；
style transfer：从reference speech中拿到reference embedding，用于代表reference speech的风格，然后控制语音的合成。但是，reference embedding中混合有content和timbre的信息。而且，风格很多是由局部的信息表现的，但是提供的是一个global embedding，因此很难还原细粒度的风格。

prosody transfer：本方法是基于prosody bottleneck sub-network得到的，不是来自于reference speech。
style transfer：之前的方法更多是intra-speaker的风格迁移，本方法实现了保存source speech（另一个说话人）phn-level prosody，和target speaker的音色。比之前的所有方法路鲁棒性更强，更加细粒度。

在这里插入图片描述

输入txt-emb, spk-emb, style-emb(global info)，预测ps/es/ds，添加prosody loss，然后再次编码送给decoder

关注

专栏目录