脸书AI研究院和以色列特拉维夫大学联合发表一篇论文,该研究开发出一套能够直接从一位歌手转换到另一位歌手声音的深度学习模型,且该神经网络没有透过任何文本或是音符来协助转换的工作,而是直接转换语音,更特别的是,该模型为非监督式,没有任何歌词、语音数据、音符,或是歌手之间的配对样本数据进行协助,也就是模型能够从未分类、未标注的数据中,实现转换声音的任务。
论文中指出,该模型能够在5~30分钟内学习如何在不同的歌手声音中转换,该神经网络针对所有的歌手,都是利用单一的CNN编译程序和WaveNet译码器,再透过分类器依据潜在的代表值代表未知的歌手,每个歌手都用一个向量值来表示,为了解决相对较少的数据集问题,研究团队提出一项新的数据增强和训练方式。研究人员解释,他们的方法是建立在Google开发的自动编译程序WaveNet上,从语音录音的波形生成模型,并利用反向翻译(backtranslation),反向翻译涉及将一个数据样本转译成目标样本,在该sbf胜博研究中,就是将一个歌手的声音转换成另一个,AI模型的训练则是分为两个阶段,第一个阶段是针对每个歌手个别使用损失函数softmax ,接着,新歌手的样本则是由混合向量而得,为了增强训练数据集,研究团队将语音片段的讯号反着播放,并微妙地转换相位(phase),藉由这两种方式增加4倍数据集的大小,第一个方式是为了创造能够辨识同一个歌手的数据,第二种数据增强方式则是创造了不易察觉但是可感知的全新讯号。
在实验中,研究团队用了两个公开的数据集,分别是史丹佛的数字语料数据DAMP和新加坡国立大学的歌唱和对话语料集NUS-48E,其中包含了多个歌手对歌曲的演译,研究团队在第一个数据集中随机挑选了5位歌手,每位歌手都有10首歌的音档,第二个数据集则是包含12位歌手,而每一位歌手都有4首歌的音档,研究团队将所有的数据都用来训练模型。
最后,再由人工针对生成声音和目标声音的相似度进行评分,分数从1~5分,并且也用自动测试的分类系统来评估样本的质量,最终评分的平均分数为4分,研究团队期望这项成果未来能够运用在背景音乐的转换上,透过非监督式的方式来完成转换,不需要在前处理的步骤中,用监督式的方式进行语音分离技术。