耳听也不为实了,基于谷歌SV2TTS算法的开源项目在GITHUB登顶

38 篇文章 5 订阅
谷歌的SV2TTS算法因其能高效转换声音并在GitHub上引起关注。该算法通过三层模型实现声音特征提取、内容合成和波形生成。开源项目在GitHub上提供实现,包括使用webrtcvad和librosa库进行语音检测和梅尔频谱计算,实现了高质量的声音克隆。
摘要由CSDN通过智能技术生成

     近日谷歌的论文SV2TTS(https://arxiv.org/pdf/1806.04558.pdf)在不论是在学术界还是在开源社区都引发热议,SV2TTS号称可以使用低分辨率的原音信息,在短时间内完成转换,生成新的声音。而且最近依据这个算法已经登陆到了github的趋势榜首位置(https://github.com/CorentinJ/Real-Time-Voice-Cloning)。

   

    SV2TTS论文摘要

    我们把原语音定义为v1,原语音内容定义为c1,原语音的speaker定义为s1,目标语音定义为v2,目标内容定义为c2。以便下文解释。

    SV2TTS定义了三层模型: 

    模型1:针对s1的声音特征的encoder网络,利用数千个人声样本,只从对于S1语音语调的嵌入工作,生成嵌入向量。至于什么是嵌入之前介绍很多了,具体可参考(https://blog.csdn.net/BEYONDMA/article/details/90114016<

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值