歌唱合成业内研究

林林宋

已于 2022-03-20 22:30:15 修改

阅读量315

点赞数 2

分类专栏： paper笔记文章标签：人工智能深度学习

于 2021-05-25 17:04:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40168949/article/details/117258588

版权

paper笔记专栏收录该内容

163 篇文章

订阅专栏

文章目录

整理的比较清楚的博客

人工智能+音乐的探索：从洛天依到小冰初窥歌唱合成
，以学术论文为例说明歌唱合成各家的技术
声乐基础理论/音高
歌唱合成基础知识非非非常详细的介绍

虚拟歌姬现状

形象	所属公司	技术
洛天依	海禾念（雅马哈), bilibili	人声驱动（山新、鹿乃），参数拼接
小冰 XiaoIceSing	微软	WORLD声码器，论文链接
HIFISINGER	微软	针对质量较差的数据，用到了multi-band的思想，论文链接
DeepSinger	微软	网上爬取的数据用于合成，论文链接
艾灵	腾讯	预测mel，DURIAN论文链接，DURIAN-SVC
ByteSinger	字节	mel预测，论文链接

XiaoiceSing–WORLD

会议：2020 interspeech
单位：微软小冰
作者：Peiling Lu
阅读链接
 文章链接
在这里插入图片描述
基于WORLD vocoder

基频显式可调节，预测pred_picth和note pitch的残差；
duration 预测phone loss + syllabel loss
MGC+BAP：预测的时候一起预测，计算loss的时候分开计算；

HiFiSinger

hifisinger阅读笔记
在这里插入图片描述

DeepSinger

阅读链接
 文章链接
在这里插入图片描述

优点：从网上爬虫拿到的数据，使用noise/clean embedding进行比较干净语音的infer生成；
大量的篇幅在讲拿到的数据是怎么处理的，force_align，标pitch，etc；

DurIAN

文章链接
在这里插入图片描述

生成歌唱语音，也同步生成表情数据

ByteSing

阅读链接
 文章链接

在这里插入图片描述

技术路线：

Tacotron-like的模型结构做encoder-decoder，额外的phoneme prediction module进行时长预测；

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。