Unsupervised Cross-Domain Singing Voice Conversion

该博客介绍了Facebook的研究成果,利用GAN网络进行语音到歌唱的跨域转换。研究中,他们使用了ASR提取的声学特征、CNN提取的基频以及loudness feature,并提出了感知损失来确保转换后的音色与原始音色的一致性。实验在LJSpeech、LCSING和VCTK、NUS等数据集上进行,展示了在单一和多说话人场景下的转换效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

会议: 2020 interspeech
单位:FaceBook
作者:Adam Polyak

demo page

abstract

  • 使用了speech & sing的数据;cross-domain的意思是可以把source singing utt转换成原始为说话or歌唱的音色。
  • wav2wav的转换,GAN网络
  • 使用了ASR提取声学特征,CNN提取基频,另外提取loudness feature,
  • 提出perceptual loss:计算重建x和原始x的基频一致性,以及内容一致性;

在这里插入图片描述
Figure 1: Proposed GAN architecture. (a) Generator architecture. Musical and speech features are extracted from a singing waveform (floud(x), fw2l(x), Γ(fcrepe(x))) and passed through context stacks (colored green). The features are then concatenated and tempo- rally upsampled to match the audio frequency. The joint embedding is used to condition a non-causal WaveNet (colored blue), which receives random noise as input. (b) Discriminator architecture. Losses are drawn with dashed lines, input/output with solid lines. The discriminator (colored orange) differentiates between synthesized and real singing. Multi-scale spectral loss and perceptual losses are computed between matching real and generated samples.
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 多说话人的时候用到了back-translation:
    x u j = G ( z , E ( x j ) , u ) x^j_u =G(z,E(x_j),u) xuj=G(z,E(xj),u)

aechitecture

input——conv block (8层non-casual layer)——generator(wavenet) :将U(0,1)之间分布的数据预测为采样点级别的wav———discriminator

Experiments

  • 单人数据:LJSpeech,LCSING-单人歌唱数据
  • 多人数据:VCTK, NUS

分别用纯speech数据、纯歌唱数据、speech+sing的数据用作模型训练,作为target speaker,测试的时候输入是nus的数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值