Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Seq2Seq Train

作者:Kun Zhou, Haizhou Li
会议:2021 interspeech
单位:新加坡国立

abstract

emotional VC:只变情感,不变说话人音色和内容
和情感TTS很像,都是生成high-qualiyu emotional speech。
stage 1:使用说话人的数据进行风格初始化,解耦speaking style和linguistic content;
stage 2:使用少量情感数据对模型进行ft,让模型解耦emotional style和linguistic content;

introduction

主要贡献:

  1. 提出seq2seq的EVC 系统,利用TTS拜托了对平行数据的依赖;
  2. 可以基于少量情感数据实现;
  3. 和帧级别VC不同的是,对情感风格进行acoustic和linguistic embedding的对齐,
  4. 情感数据对WaveRNN vocoder进行ft,进一步提升合成语音表现力

method

在这里插入图片描述

基于中科大ASR-TTS-VC的模型框架

  1. 首先用多人普通TTS数据训练,style encoder含有丰富的说话人+风格的信息,推测其可以学到情感的信息通过少量的情感数据;
  2. 少量情感数据进行ft,模型参数共享;其中emotional encoder和emotion classifier来自stage 1;

假设的实验论证
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值