豆包高质量声音有望复现-Seed-TTS

最新推荐文章于 2025-03-13 16:39:14 发布

MavenTalk

最新推荐文章于 2025-03-13 16:39:14 发布

阅读量1.5k

点赞数 4

分类专栏： AI 文章标签：人工智能 TTS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hero272285642/article/details/139780689

版权

AI 专栏收录该内容

103 篇文章

订阅专栏

我们介绍了 Seed-TTS，这是一个大规模自回归文本转语音（TTS）模型系列，能够生成与人类语音几乎没有区别的语音。Seed-TTS 作为语音生成的基础模型，在语音上下文学习方面表现出色，在说话人的相似性和自然性方面取得了与客观和主观评估中基本人类语音相匹配的表现。通过微调，我们在这些指标上获得了更高的主观分数。Seed-TTS 对各种语音属性（如情感）具有卓越的可控性，并且能够为野外的说话者生成高度富有表现力和多样化的语音。此外，我们提出了一种用于语音分解的自蒸馏方法，以及一种增强模型鲁棒性、说话人相似性和可控性的强化学习方法。我们还提出了 Seed-TTS 模型的非自回归（NAR）变体，称为 Seed-TTS DiT ，它利用完全基于扩散的架构。与以前基于NAR的TTS系统不同，Seed-TTS DiT 不依赖于预先估计的音素持续时间，而是通过端到端处理来执行语音生成。我们证明了该变体在客观和主观评估中都实现了与基于语言模型的变体相当的性能，并展示了其在语音编辑中的有效性。

项目地址：https://bytedancespeech.github.io/seedtts_tech_report
在这里插入图片描述
特别是Speaker2的发间，几乎与豆包里面【温柔桃子】的声音近似，期待好声音早些面世，科技引领生活。

跨语言部分更是惊艳

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

MavenTalk 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。