Unsupervised Style and Content Separation by Minimizing Mutual Information for Speech Synt

会议:2020 icassp
作者:Ting-Yao Hu
单位:CMU & Apple

abstract

  • 现有的风格控制的TTS是输入文本和base speech,从base speech中提取出style vector,然后用decoder将style vector + txt emb合成语音。这样的问题在于:style vector中其实会包含有内容的信息(训练过程中refer encoder的输入和txt合成后的语音是同一条),decoder在重建语音时会用到style vector中的文本信息,而忽略txt的信息,以使得recon-loss最小。这样,在infer的时候,如果ref speech和合成txt不一样的话,就出使得合成内容的丢失。
  • 因此通过对抗训练的策略,最小化style vector和txt中共同的信息。
  • MIST-- Mutual Information based Style Content Separation

1. introduction

MIST算法在 2018 ICML:Mutual information neural estimation中提出。也是基于nn做的
包含he MINE network, (max loss), the style encoder, the content encoder, and the decoder.

2. RELATED WORKS

本文的base组合是TransformerTTS +WaveNet vocoder
我们的方法通过显式最小化潜在表示之间的相互信息,从而对style和content进行解耦;而不是优化判别器的loss。

之前有工作研究style control [4-7],但是大部分用speaker emb或者emotion id控制,不是真正的无监督;GST是无监督,但是有content leakage。

3. 3. The Proposed MIST Approach

3.3.1 Content Encoder Pre-training

step 1:single-style dataset对TTS模型进行预训练,因为多说话人的数据库会有同一内容的文本对应多个句子的情况。
与训练模型的encoder权重保持不变,decoder和style encoder随机初始化;recon loss = L1 Loss
step 2:

3.3.2 Style and content disentanglement

  • step 2:想要使得content encoder和style encoder的输出共有信息最少,设置loss,
    在这里插入图片描述

Y,Z的相关度越小,KL越大;因此max loss即可解决content leakage的问题;

  • 因为MI Loss大部分时候是正数,所以MI Loss = max(0, MI Loss),设置一个下界,好处在于:(1)比不设下限好(2)避免在min loss的时候没有下限;------通过语音识别验证,clip的效果会使得识别准确率提升30%;

在这里插入图片描述

  • 利用GAN训练的方法,每次优化一个net:(1)style encoder + decoder 最小化 r e c o n _ l o s s + λ ∗ M I _ L o s s recon\_ loss + \lambda * MI\_Loss recon_loss+λMI_Loss;(2) style encoder + MI net 最大化 M I _ L o s s MI\_Loss MI_Loss;
  • (1) 在提取的style vector下,恢复的speech最准确;(2)优化style encoder,是的style vector中的文本信息更少;

4. EXPERIMENTS

LJSpeech用于模型预训练;VCTK 以及LibriTTS数据用于后续的训练;
baseline model:GST, 使用spk-emb做style vector;

  • WER对比
    在这里插入图片描述

主观 ABX测试结果

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值