2018研电赛项目介绍

本文介绍了2018年研电赛参赛项目,旨在实现歌声转语音,特别是将专业歌手的音色转换为指定说话人的声音。项目采用变分自编码-生成对抗网络模型,解决无平行数据集问题,实现了多对多音色转换。在训练过程中,通过引入W距离的梯度惩罚策略克服了GAN训练的困难。虽然数据集噪音和可用性构成挑战,但最终通过清唱数据集和部分语音数据集完成了训练。
摘要由CSDN通过智能技术生成

背景

2018年4月份我们准备研电赛的参赛内容,在经过广泛的查阅资料,并结合自己的研究课题,我提出了两个idea:

  1. 做一个家庭音响系统,每个房间可以独立的播放歌曲,歌曲的控制通过语音交互,有一个树莓派总控制端,为每个房间输出对应的音乐流。
  2. 做歌声音色转换,将专业歌手的歌声变成用你的声音唱出来的

第一个方案,有现实的需求,难点在于各个房间的语音控制和树莓派多路音频流的实现。第二个方案,课题相关。

简要介绍

参赛项目做得是将源歌手的歌声转为目标说话人的歌声。在歌声音色转换中,将源歌手的音色转换为目标说话人的音色的难点在于:

  1. 由于歌手和说话人的限制,不存在平行数据集;
  2. 突破传统音色转换模型“一对一”的限制,实现“多对多”音色转换;

我们设计了一个基于变分自编码-生成对抗网络模型,不需要使用平行数据集训练,能够实现多对多转换。在这个模型中我们将梯度惩罚引入到网络的训练中,获得了很好的转换结果。在得知我们进入决赛后,我们还将模型部署到线上,可以实现实时的语音转换。

难点

一是实验方案的设计,要考虑到创新性和可行性,参加研电赛的项目最好能有很强的实用价值,而不是只在实验室中的玩具。考虑到歌手到歌手之间的转换由于数据集问题,目前没有办法获得较好的转换结果,而歌手和说话人之间的转换数据集没有问题,可以作为一个娱乐项目,还比较有应用前景。比如在移动 K 歌软件中,没有接受过专业训练的普通人的歌声很难达到专业歌手的标准,对于喜欢的歌曲没办法很好的完成整首歌的演唱

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值