数据与代码见文末
论文地址:https://arxiv.org/pdf/1907.12279.pdf
1.概述
什么是变声器,变声器就是将语音特征进行转换,而语音内容不改变
那么我们如何构建一个变声器呢?
首先,我们肯定不能为转换的每一种风格的声音训练一种网络,因此我们可以采用star gan的思想(参见:Star GAN论文解析-CSDN博客),只训练一个对抗生成网络解决所有问题。当然,任务不同,具体的网络结构需要改变
需要的什么输入呢?输入当然是声音数据和标签编码(one hot类型)。
2.输入数据
输入声音数据最重要的指标为频率,即每秒钟波峰所发生的数目称之为信号的频率,用单位千赫兹(kHz)表示