Singing VC with disentangled representations of singer and vocal technique using VAE

会议:2020 ICASSP
作者:Yin-Jyun Luo
单位:Singapore University of Technology and Design
demo链接

abstract

使用VAE结构,基于非平行数据完成many-to-many的singer VCsingers vocal technique conversion。使用两个单独的encoder分别解码歌唱者身份信息和vocal technique 信息,通过空间向量的算术运算重新耦合信息,然后用decoder做语音重建。

将VAE中的KL loss替换成GMM loss,增强建模的多样性和生成语音的表现力。demo使用的都是breathy(aaa的演唱),没有真正的演唱。

introduction

本文通过Gaussian mixture VAE解耦特征,提取time-dependent singer/technique variable,因为technique variable是时间变化的。(之前的方式是一句话提取一个变量,本文也做过这样的实验,但是结果不好。)
实现many-to-one的转换(singer 和vocal technique)

methods

常规的VAE,使用KL 拟合数据的普遍分布,但是会降低模型的表现力,因此引入 multi-modal (GMM)建模数据的多样性。
KL 分布
在这里插入图片描述
GMM 先验
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值