会议:2020 ICASSP
作者:Yin-Jyun Luo
单位:Singapore University of Technology and Design
demo链接
abstract
使用VAE结构,基于非平行数据完成many-to-many的singer VC 和singers vocal technique conversion。使用两个单独的encoder分别解码歌唱者身份信息和vocal technique 信息,通过空间向量的算术运算重新耦合信息,然后用decoder做语音重建。
将VAE中的KL loss替换成GMM loss,增强建模的多样性和生成语音的表现力。demo使用的都是breathy(aaa的演唱),没有真正的演唱。
introduction
本文通过Gaussian mixture VAE解耦特征,提取time-dependent singer/technique variable,因为technique variable是时间变化的。(之前的方式是一句话提取一个变量,本文也做过这样的实验,但是结果不好。)
实现many-to-one的转换(singer 和vocal technique)
methods
常规的VAE,使用KL 拟合数据的普遍分布,但是会降低模型的表现力,因此引入 multi-modal (GMM)建模数据的多样性。
KL 分布
GMM 先验