语音合成（TTS)论文优选：DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System

最新推荐文章于 2024-10-21 17:03:15 发布

我叫永强

最新推荐文章于 2024-10-21 17:03:15 发布

阅读量749

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习自然语言处理机器学习

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/111825132

版权

语音合成论文专栏收录该内容

104 篇文章

订阅专栏

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System

本文章是北京工业大学，腾讯人工实验室和中国音乐学院在2020.08.07更新的文章，主要做普通音频和音乐进行转换（speech to sing)，具体的文章链接如下https://arxiv.org/pdf/2008.03009.pdf

1 背景

歌唱合成是一项具有娱乐性的研究项目，但是很多使用者不会唱歌但想在朋友圈发一些自己的“歌唱”，因此本文的研究方向是把普通的音频转换成歌唱音频，应用场景还是有的。

2 详细的设计

本文在DurIAN(duration informed attention network)基础上提出了DurIAN-SC (sing conversion),本系统如图2所示主要包括三个部分：encoder, alignment module 和 decoder。其中encoder主要把音素序列转成隐向量。对齐模块则把音素级别根据时长扩展成帧级别的特征。最后，最回归模式的decoder根据对齐模块的输出进行逐帧推理。

该转换主要分为训练和转换阶段。训练阶段如图2所示，把歌唱和普通音频混在一起，然后提取特征RMSE,F0,Specker embedding(该模块是使用8000多人先训练好）和duration sequence。最后把提取的特征输入到DurIAN-SC进行训练。转换阶段如图3所示，提取歌声的RMSE,F0和duration sequence，提取目标说话人的Specker embedding，然后使用训练好的DurIAN-SC进行合成。