背景
2018年4月份我们准备研电赛的参赛内容,在经过广泛的查阅资料,并结合自己的研究课题,我提出了两个idea:
- 做一个家庭音响系统,每个房间可以独立的播放歌曲,歌曲的控制通过语音交互,有一个树莓派总控制端,为每个房间输出对应的音乐流。
- 做歌声音色转换,将专业歌手的歌声变成用你的声音唱出来的
第一个方案,有现实的需求,难点在于各个房间的语音控制和树莓派多路音频流的实现。第二个方案,课题相关。
简要介绍
参赛项目做得是将源歌手的歌声转为目标说话人的歌声。在歌声音色转换中,将源歌手的音色转换为目标说话人的音色的难点在于:
- 由于歌手和说话人的限制,不存在平行数据集;
- 突破传统音色转换模型“一对一”的限制,实现“多对多”音色转换;
我们设计了一个基于变分自编码-生成对抗网络模型,不需要使用平行数据集训练,能够实现多对多转换。在这个模型中我们将梯度惩罚引入到网络的训练中,获得了很好的转换结果。在得知我们进入决赛后,我们还将模型部署到线上,可以实现实时的语音转换。
难点
一是实验方案的设计,要考虑到创新性和可行性,参加研电赛的项目最好能有很强的实用价值,而不是只在实验室中的玩具。考虑到歌手到歌手之间的转换由于数据集问题,目前没有办法获得较好的转换结果,而歌手和说话人之间的转换数据集没有问题,可以作为一个娱乐项目,还比较有应用前景。比如在移动 K 歌软件中,没有接受过专业训练的普通人的歌声很难达到专业歌手的标准,对于喜欢的歌曲没办法很好的完成整首歌的演唱