Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Seq2Seq Train

最新推荐文章于 2024-07-27 23:39:44 发布

林林宋

最新推荐文章于 2024-07-27 23:39:44 发布

阅读量241

点赞数

分类专栏： paper笔记文章标签：深度学习语音识别

原文链接：https://arxiv.org/pdf/2103.16809.pdf

版权

paper笔记专栏收录该内容

162 篇文章 23 订阅

订阅专栏

作者：Kun Zhou, Haizhou Li
会议：2021 interspeech
单位：新加坡国立

文章目录

abstract

emotional VC：只变情感，不变说话人音色和内容
和情感TTS很像，都是生成high-qualiyu emotional speech。
stage 1:使用说话人的数据进行风格初始化，解耦speaking style和linguistic content；
stage 2:使用少量情感数据对模型进行ft，让模型解耦emotional style和linguistic content；

introduction

主要贡献：

提出seq2seq的EVC 系统，利用TTS拜托了对平行数据的依赖；
可以基于少量情感数据实现；
和帧级别VC不同的是，对情感风格进行acoustic和linguistic embedding的对齐，
情感数据对WaveRNN vocoder进行ft，进一步提升合成语音表现力

method

在这里插入图片描述

基于中科大ASR-TTS-VC的模型框架

首先用多人普通TTS数据训练，style encoder含有丰富的说话人+风格的信息，推测其可以学到情感的信息通过少量的情感数据；
少量情感数据进行ft，模型参数共享；其中emotional encoder和emotion classifier来自stage 1；

假设的实验论证
在这里插入图片描述

林林宋

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Seq2Seq Train

作者：Kun Zhou, Haizhou Li会议：2021 interspeech单位：新加坡国立文章目录abstractintroductionmethodabstractemotional VC：只变情感，不变说话人音色和内容和情感TTS很像，都是生成high-qualiyu emotional speech。stage 1:使用说话人的数据进行风格初始化，解耦speaking style和linguistic content；stage 2:使用少量情感数据对模型进行ft，让模型解耦
复制链接

扫一扫

专栏目录