Speech-to-Singing Conversion based on Boundary Equilibrium GAN

文章目录

作者：Da-Yi Wu
会议：2020 interspeech
单位：台湾国立大学
demo链接， emmm可懂度不是很高
代码实现

abstract

基于GAN的网络将speech信号转成歌唱信号。而且不需要speech的音素序列信息，是一种speech-to-sing的风格转换。过程是：给定输入speech和target singing的F0，通过progressive-growing encoder/decoder结构，生成歌唱信号谱。模型通过boundary equlibrium GAN loss项，可以基于平行/非平行数据学习。

1. introduction

singing voice synthesis是指将一个speech的音色&内容保持不变，而以唱歌的形式呈现出来，旋律可以参考一个给定的歌曲，或者自动生成的旋律。
singing和speech的直接转换很难，因为他们的韵律和音素表示差别很大；此外，在speech中不重要的旋律信息，在singing中必不可少。因此，一段speech可以用多种语速、tone甚至发音的singing呈现。

speech-to-singing(STS)的实现方式可以分为两种：
（1）model-based：用duration module对speech的时长进行放缩；通过F0 model生成F0 contour；通过spectral model修改音色信息，使其像歌唱的形式。生成的歌唱质量取决于音素划分的精度以及musical note的关联程度。
（2）template-based：高质量的vocal作为模板，将speech和template一起输入，一个对齐另一个；template singing中提取reference prosody（包括F0, AP，singing formants-共振峰等）。这些信息被用于align speech的歌唱合成参数估计。也有基于i-vector特征恢复谱参数的方法。

本文是基于GAN的第三种方法，利用了GAN在音乐风格迁移上的成功。本文是基于作者之前的工作【9】的改进：只需要一段speech和target F0，就可以生成singing片段。不需要对齐的音素信息和template singing segment，缺点是合成的语音质量不高。
本文的改进有：（1）将卷积结构替换成一个层次结构逐步生成输出，在audio 生成中已经被应用【14-17】;（2）【9】仅用到平行数据，本文添加非平行数据训练；应用基于boundary-equilibrium GAN的网络【18】；
（3）使用【19】中提到的random resampling更好的解码文本和韵律信息；（4）MelGAN vocoder改善语音质量。

2. method

在这里插入图片描述
完成的是spec-to-spec的转换。encoder-decoder的结构，具体参考图1。

2.1. Input processing

Log-magnitude representation：计算mel-spectrogram的幅度谱，然后逐元素求对数；
Random resampling (RR): speech中包含速度和韵律的信息，对speech进行随机采样，更好的解耦文本和韵律信息。把speech分成16-32的随机长度帧，然后拉伸0.5—2的因子。
Singing melody contour 使用CREPE提取monophonic pitch tracker，然后将连续的F0通过librosa package中的Hz-to-MIDI function 将F0转成128个MIDI notes 中的一个。one-hot vector表示midi note。
Time stretching (TS)：本文是spectral-to-spectral的转换，输入输出都是连续的。将输入线性插值到和target（F0 contour)等长。

2.2 encoder and decoder

在这里插入图片描述

2.3. BEGAN

BEGAN–energy-based GAN architecture
在这里插入图片描述
L=encoder(in)和input求损失，
r越小，说明对于BEGAN，真的更好，with better quality but less diversity
r越大，假的更好：improve the diversity but lower the quality.