2018研电赛项目介绍

最新推荐文章于 2024-01-29 18:10:50 发布

明月几时有.

最新推荐文章于 2024-01-29 18:10:50 发布

阅读量4.3k

点赞数 2

分类专栏：随笔文章标签：研电赛

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35576881/article/details/95209346

版权

本文介绍了2018年研电赛参赛项目，旨在实现歌声转语音，特别是将专业歌手的音色转换为指定说话人的声音。项目采用变分自编码-生成对抗网络模型，解决无平行数据集问题，实现了多对多音色转换。在训练过程中，通过引入W距离的梯度惩罚策略克服了GAN训练的困难。虽然数据集噪音和可用性构成挑战，但最终通过清唱数据集和部分语音数据集完成了训练。

摘要由CSDN通过智能技术生成

背景

2018年4月份我们准备研电赛的参赛内容，在经过广泛的查阅资料，并结合自己的研究课题，我提出了两个idea：

做一个家庭音响系统，每个房间可以独立的播放歌曲，歌曲的控制通过语音交互，有一个树莓派总控制端，为每个房间输出对应的音乐流。
做歌声音色转换，将专业歌手的歌声变成用你的声音唱出来的

第一个方案，有现实的需求，难点在于各个房间的语音控制和树莓派多路音频流的实现。第二个方案，课题相关。

简要介绍

参赛项目做得是将源歌手的歌声转为目标说话人的歌声。在歌声音色转换中，将源歌手的音色转换为目标说话人的音色的难点在于:

由于歌手和说话人的限制，不存在平行数据集;
突破传统音色转换模型“一对一”的限制，实现“多对多”音色转换;

我们设计了一个基于变分自编码-生成对抗网络模型，不需要使用平行数据集训练，能够实现多对多转换。在这个模型中我们将梯度惩罚引入到网络的训练中，获得了很好的转换结果。在得知我们进入决赛后，我们还将模型部署到线上，可以实现实时的语音转换。

难点

一是实验方案的设计，要考虑到创新性和可行性，参加研电赛的项目最好能有很强的实用价值，而不是只在实验室中的玩具。考虑到歌手到歌手之间的转换由于数据集问题，目前没有办法获得较好的转换结果，而歌手和说话人之间的转换数据集没有问题，可以作为一个娱乐项目，还比较有应用前景。比如在移动 K 歌软件中，没有接受过专业训练的普通人的歌声很难达到专业歌手的标准，对于喜欢的歌曲没办法很好的完成整首歌的演唱

最低0.47元/天解锁文章

明月几时有.

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。