GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech

  • Rongjie Huang, Yi Ren
  • NeurIPS 2022

abstract

  • 目标:做out-of-domain (OOD)style transfer(情感、音色、韵律)
  • 两个改进:(1)multi-level style adaptor :包括global style以及 local style (utterance, phoneme, and word-level) ;(2) content adaptor with Mix-Style Layer Normalization:用以消除输入文本特征中的风格信息,改善模型泛化能力;

背景

  • Meta-StyleSpeech,SC-GlowTTS,Styler: Style factor modeling with rapidity and robustness via speech decomposition for expressive and controllable neural text to speech.
  • OOD的风格迁移,尤其是zero-shot的,都有先验的假设新的目标风格对于base model是可迁移的,但实际上,新的目标风格可能不同于base model中任意一种数据分布,这就要求:the model can be invariant to domain shift given unseen data. 从图像上借鉴一些方法。

GenerSpeech

  • 问题定义:transfer of out-of-domain custom voice.
  • 分析:想要做风格迁移,首先要划分好哪些是风格先管的特征,哪些是风格无关的特征
    • style-agnostic (linguistic content)
    • style-specific (e.g., speaker identity, emotion, and prosody)

Mix-Style Layer Normalization—去除文本中的风格信息

在这里插入图片描述

  • 常规condition layer norm的基础上,将说话人相关的向量打散加入layer norm的系数中;

Multi-level Style adaptor

在这里插入图片描述

Global Representation

  • 从wav2vec2.0 中提取,
  • wav2vec训练的loss是mask挖空对比学习之类,得到的模型浅层是比较全局的信息如音色之类,深层的是内容相关的信息。这种可以作为ASR的前置特征提取;audio token训练的loss是重建,所以包含了重建语音所需的所有信息,可用于TTS离散化

Local Representation

  • frame/phn/word level prosody embedding:按照边界进行conv pooling,然后加VQ量化,过滤韵律无关的信息;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值