【论文阅读】TimbreTron : A WaveNet (Cycle GAN(CQT(audio ))) pipeline for musical timbre transfer

本文提出了TimbreTron,一种结合常数Q变换(CQT)、CycleGAN和WaveNet的音乐音色转换流程。通过CQT作为音频表征,CycleGAN进行音色转换,最后使用WaveNet合成高质量音频。实验表明,这种方法在某些乐器间的音色转换中表现出色,但存在局限性,如仅限一对一乐器转换。
摘要由CSDN通过智能技术生成

本文来自于ICLR2019。

文章引入

本文讲的是乐器音色转换,即将一种乐器演奏的乐曲转换为另外一个乐器的音色,使转换后的乐音听起来像是另一个乐器所演奏的。提出了一种音频处理工作流程:TIMBRETRON,主要包含三个方面的工作:

  1. 使用常数Q变换,做为音频的表征,即深度模型的输入
  2. 使用CycleGAN的一个变种作为音色转换的模型
  3. 使用WaveNet-Synthesizer来合成高质量的音频波形

音色是人类对音乐的感知,即使是使用相同的音高和时间弹奏同一个音符,人们也能够通过音色区分出是用何种乐器弹奏的。对音色建模很困难,音色的复杂性也导致了它没有简单的定义,音色曾经被定义为心理声学家的多维废纸篓类别,即任何无法标记音高或响度的。单音符在单音调的上的音色对音量,时间,演奏乐器的方式具有非线性依赖关系。针对音色建模和合成尽管已有大量研究,但是现在管弦乐演奏家为模拟乐器所使用的最好的乐音库仍然来自于对真实乐器演奏的作品的极度小心的采样。建模和操控音色,对希望试验不同的声音,听到他们的音乐用不同的乐器演奏出来或者为多个乐器作曲的音乐家来说具有重大意义。

本文考虑不同乐器演奏的音频片段之间的高质量音色转换。灵感来源于近期神经网络在图像风格迁移上的成功应用。比较吸引人的一种方式是将音频的时间-频率表示当做图片,直接应用于基于图像的风格迁移,完成音色转换。将神经网络生成的频谱图转换成音频波形却是一个主要的难点,因为需要精确的重建波形需要相位信息,而相位信息却难以估计出来,现有的估计相位信息的方法会产生特征伪像,不利于合成高质量的音频波形。

近年来,基于音频的生成模型在生成高质量的音频波形上取得了快速的进展。WaveNet, SampleRNN和Tacotron2成功地应用于建模人类语音和进行端到端语音转换。WaveNet能够利用音频的抽象表征作为约束条件非常重要,因为这使得人们能够操作音频的高层听觉表征,并且从高层表征重建出原始波形,这在以前是不可能实现的。Tacotron2使用预测输出的梅尔频谱作为WaveNet的约束条件,在语音领域取得了很大成功。我们将这种方法用于音乐领域。TimbreTron是使用非平行数据集的基于常数Q变换的音色转换,并且可以输出高质量的音频波形。常数Q变换尤其适合乐器音色转换,因为它具有音高等变性,并且能够同时在低频率分辨率时获得较高的频率分辨率,在高频率时获得高时间分辨率,STFT却没有这种特点。
作者所提的工作流程如下图,将原始波形经过常数Q变换,在利用CycleGAN进行音色转换,CycleGAN输出带有目标乐器音色特征的频谱,在将该频谱通过WaveNet声码器合成音频波形。

作者说该模型能够在某些乐器上成功地进行音色转换,即在某些乐器上音色转换后合成的音频很像目标乐器的音色,这里最好注意一下这个某些乐器是什么,我们后面再说。

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值