MockingBird_代码与论文不同的细节

最新推荐文章于 2024-10-11 07:12:55 发布

孜孜不倦fly

最新推荐文章于 2024-10-11 07:12:55 发布

阅读量103

点赞数

分类专栏： AI语音克隆_Mockingbird

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq358660877/article/details/132599952

版权

AI语音克隆_Mockingbird 专栏收录该内容

15 篇文章

订阅专栏

本文深入解析了语音合成系统的两个核心组件：合成器和GSTs的工作原理。合成器将文本输入转换为512维的character embedding，并介绍了如何通过参考B站视频获取简洁的训练代码框架。GSTs部分则详细解释了如何从梅尔频谱中提取风格特征，包括reference encoder的作用、style layer的输出等，读者可以进一步参考CSDN上的文章了解Style Tokens的概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.合成器
1.合成器的文本输入被处理成512维的character embedding，具体如下图所示：
2.建议参考B站视频：语音合成超简洁训练代码框架二.GSTs
1.由于原Tacotron的encoder输出为256维度，与说话人编码器的输出speaker embedding(也是256维)连接后变为512维，为了匹配文本编码器的维数，每个token嵌入为512维。
2.梅尔频谱经过reference encoder后输出256维的嵌入，该嵌入与speaker embedding拼接得到512维的reference embedding，最后将reference embedding输入style layer得到512维的输出style embedding。
3.参考CSDN文章：论文阅读 Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

孜孜不倦fly

博客等级

码龄6年

168
原创

327
点赞

239
收藏

217
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

redis中的zset的原理
一个双鱼座的测开: 这篇关于redis中的zset的原理如果有序集合元素个数少于128个且元素值小于64字节，使用压缩列表（新版本已经废弃压缩列表改用listpack数据结构了）头结点直接创建最大层数（64），其他节点生成小于0.25的随机数就一直创建层，一旦随机数超过0.25就确定该节点层数。1.在链表的基础上改进而来的，是一种多层的有序链表。2.实现层级靠的是节点结构体中的zskiplistLevel结构体类型的level数组。（2）比较SDS类型数据大小，小的话访问该层下一个节点。（3）以上两种都不满足的情况下，跳到当前节点的下一层。的文章写的太好了，完全是我想要学习的
Redis基本知识
π~π: 这么好的文章竟然没人
解决没有进入docker的权限问题
JJJ69: 写的不错，对我有帮助
解决没有进入docker的权限问题
CSDN-Ada助手: 恭喜博主成功撰写了第18篇博客！标题看起来非常引人注目，解决没有进入docker的权限问题对于许多使用者来说是个很常见的挑战。我真的很期待能够阅读你的解决方案和经验分享。在下一步的创作中，我建议你可以继续关注docker相关的问题和挑战，并分享一些更深入的技术细节和实用的解决方案。谦虚地说，你的经验分享将会对许多人有所帮助。加油！
ubuntu在使用su - root时提示认证失败
CSDN-Ada助手: 恭喜你写了第15篇博客！对于Ubuntu在使用su - root时提示认证失败的问题，你的经验分享对很多人来说一定是非常有帮助的。下一步，我建议你可以继续深入探讨Ubuntu系统中常见的问题及解决方法，或者分享一些实用的技巧和经验。希望你能继续保持创作热情，为大家带来更多有价值的内容！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。