Unsupervised Style and Content Separation by Minimizing Mutual Information for Speech Synt

最新推荐文章于 2022-09-08 20:46:42 发布

林林宋

最新推荐文章于 2022-09-08 20:46:42 发布

阅读量310

点赞数

分类专栏： paper笔记

原文链接：https://arxiv.org/abs/2003.06227

版权

paper笔记专栏收录该内容

162 篇文章 24 订阅

订阅专栏

会议：2020 icassp
作者：Ting-Yao Hu
单位：CMU & Apple

abstract

现有的风格控制的TTS是输入文本和base speech，从base speech中提取出style vector，然后用decoder将style vector + txt emb合成语音。这样的问题在于：style vector中其实会包含有内容的信息（训练过程中refer encoder的输入和txt合成后的语音是同一条），decoder在重建语音时会用到style vector中的文本信息，而忽略txt的信息，以使得recon-loss最小。这样，在infer的时候，如果ref speech和合成txt不一样的话，就出使得合成内容的丢失。
因此通过对抗训练的策略，最小化style vector和txt中共同的信息。
MIST-- Mutual Information based Style Content Separation

1. introduction

MIST算法在 2018 ICML：Mutual information neural estimation中提出。也是基于nn做的
包含he MINE network, （max loss), the style encoder, the content encoder, and the decoder.

2. RELATED WORKS

本文的base组合是TransformerTTS +WaveNet vocoder
我们的方法通过显式最小化潜在表示之间的相互信息，从而对style和content进行解耦；而不是优化判别器的loss。

之前有工作研究style control [4-7]，但是大部分用speaker emb或者emotion id控制，不是真正的无监督；GST是无监督，但是有content leakage。

3. 3. The Proposed MIST Approach

3.3.1 Content Encoder Pre-training

step 1：single-style dataset对TTS模型进行预训练，因为多说话人的数据库会有同一内容的文本对应多个句子的情况。
与训练模型的encoder权重保持不变，decoder和style encoder随机初始化；recon loss = L1 Loss
step 2：

3.3.2 Style and content disentanglement

step 2：想要使得content encoder和style encoder的输出共有信息最少，设置loss，

Y,Z的相关度越小，KL越大；因此max loss即可解决content leakage的问题；

因为MI Loss大部分时候是正数，所以MI Loss = max(0, MI Loss)，设置一个下界，好处在于：（1）比不设下限好（2）避免在min loss的时候没有下限；------通过语音识别验证，clip的效果会使得识别准确率提升30%；

在这里插入图片描述

利用GAN训练的方法，每次优化一个net：（1）style encoder + decoder 最小化 $recon\_ loss + \lambda * MI\_Loss$ ;(2) style encoder + MI net 最大化 $MI\_Loss$ ;
(1) 在提取的style vector下，恢复的speech最准确；（2）优化style encoder，是的style vector中的文本信息更少；

4. EXPERIMENTS

LJSpeech用于模型预训练；VCTK 以及LibriTTS数据用于后续的训练；
baseline model：GST, 使用spk-emb做style vector;

WER对比

主观 ABX测试结果

在这里插入图片描述

林林宋

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Unsupervised Style and Content Separation by Minimizing Mutual Information for Speech Synt

会议：2020 icassp作者：Ting-Yao Hu单位：CMU & Appleabstract现有的风格控制的TTS是输入文本和base speech，从base speech中提取出style vector，然后用decoder将style vector + txt emb合成语音。这样的问题在于：style vector中其实会包含有内容的信息（训练过程中refer encoder的输入和txt合成后的语音是同一条），decoder在重建语音时会用到style vector中的文
复制链接

扫一扫

专栏目录