[2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING

作者:Li Zhonghao
会议:投稿2021 icassp
单位:bytedance

abstract

两个encoder,一个编码PPGs的文本信息,一个输入mel谱编码声学和音乐信息;为了改善timbre和melody,另外有adversarial singer confusion module和mel-regressive 表征学习模块。

1. introduction

在VC中,对于pitch,pause的修改是被允许的; 但是在SVC中,pitch,pause被认为是歌唱相关,说话人无关的特征,应该在转换过程中被保留。

传统的SVC方法基于平行数据:参数生成结构–GMM,GAN网络
基于非平行数据的方法:VAE—用wavenet分别做encoder和decoder,用这么强大的一个网络来做这件事情,可以在非平行数据上达到较好的效果。【8】引入domain confusion module从encoder output中解耦singer information。【9】沿用了domain confusion 的思路,进一步提出了pitch confusion module,可以从encoder outputs中移除picth信息,进而能够通过F0值控制基频包络和韵律。还有一些其他基于VAE的方法在研究SVC,但是他们不能解决输入音频包含噪声的情况。

PPGs(sun) 是一个好的文本特征,同时保留了速度信息。DBLSTM用PPGs做many-to-one的转换【14】,【15】又进一步将这个方法扩展到many-to-many的转换。

2. METHOD

在这里插入图片描述

2.1 PPGs Encoder & decoder
  • singing ASR:使用的是歌唱识别数据集,CTC loss训练的ASR,提取1467-d PPGs
  • look_up_tabel方式得到的speaker_embedding,GMM attention和stop token被引入
  • source song中提取LF0
  • decoder input:encoder_output + LF0 + spk_emb
    Y Y Y是mel spec, t t t是stop token
    binary CE loss预测停止点
    在这里插入图片描述
2.2 Mel Encoder
  • PPGs去除了音色信息,仅保留文本信息,但丢失了歌唱转换需要的风格(intonation-语调,melody, emotion),因此用额外的mel encoder编码这些信息。

  • 实验发现:mel encoder的输出维度被设为最小,这样可以更好的抑制source voice中的音色和sound noise。4 units在平衡 timbre, sound quality, and musical characters 音素时表现最好。

在这里插入图片描述

2.3 singer confusion module
  • 作用:为了加强转换语音和source的音色相似度;此处尝试过CBHG结构的module,但是性能不稳定,且很容易训崩
  • C t a r g e t C_{target} Ctarget是目标说话人的one-hot embedding
  • C t a r g e t j C_{target}^j Ctargetj是第 j j j帧预测的spk_emb,然后对N帧结果求平均
    在这里插入图片描述
  • 训练分成两步
  • (1)训练分类网络,以最小化 L D L_D LD
  • (2)训练conversion path:(singer 分类器参数不再更新),loss函数是下公式,说话人判别器根据encoder output的输出判断说话人身份
    在这里插入图片描述
2.4 Mel-Regressive Representation learning Module
  • 测试发现加入singer confusion module,在解耦说话人身份之外,发音和音乐特征的表达被削弱了,因此加入额外的模块,对学习的特征进行指导补充。
  • 训练阶段L:将speaker embedding+mel encoder outputs拼音送入Mel-Regressive Representation learning Module,恢复mel,
    在这里插入图片描述
    生成器的loss函数可以表示为
    在这里插入图片描述
3. EXPERIMENTS
3.1. Experimental Setup

train-set:中文普通话歌唱数据集32.7h(9个female, 7个male),每个说话人平均1000句训练,10句evaluation。
test-set:训练集以外的20人,40个segment,
decoder:WaveRNN
singing ASR(SASR):20k hours数据, 1467-d PPGs
参数设置:γ = 1.0, λ = 0.1

18个专业的音乐人进行听测;测试了(1)自然度;(2)相似度;另外测试了客观指标NCC(normalized cross-correlation,归一化互相关)—prediction和ground-truth之间的pitch匹配度;

3.2 Ablation Test

在这里插入图片描述
结论:

  1. mel encoder改善了自然度,但是降低了timbre 相似度;
  2. 加入singer confusion之后,相似度提升了,但是自然度下降了;
  3. 再加入mel-regressive learning module之后,两个观测指标都得到提升;
3.3 Noise Robustness

在这里插入图片描述

对source加入不同信噪比的白噪声,性能损失很少(信噪比表明声音的清晰度)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值