豆包高质量声音有望复现-Seed-TTS

我们介绍了 Seed-TTS,这是一个大规模自回归文本转语音 (TTS) 模型系列,能够生成与人类语音几乎没有区别的语音。Seed-TTS 作为语音生成的基础模型,在语音上下文学习方面表现出色,在说话人的相似性和自然性方面取得了与客观和主观评估中基本人类语音相匹配的表现。通过微调,我们在这些指标上获得了更高的主观分数。Seed-TTS 对各种语音属性(如情感)具有卓越的可控性,并且能够为野外的说话者生成高度富有表现力和多样化的语音。此外,我们提出了一种用于语音分解的自蒸馏方法,以及一种增强模型鲁棒性、说话人相似性和可控性的强化学习方法。我们还提出了 Seed-TTS 模型的非自回归 (NAR) 变体,称为 Seed-TTS DiT ,它利用完全基于扩散的架构。与以前基于NAR的TTS系统不同,Seed-TTS DiT 不依赖于预先估计的音素持续时间,而是通过端到端处理来执行语音生成。我们证明了该变体在客观和主观评估中都实现了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

项目地址:https://bytedancespeech.github.io/seedtts_tech_report
在这里插入图片描述
特别是Speaker2的发间,几乎与豆包里面【温柔桃子】的声音近似,期待好声音早些面世,科技引领生活。

跨语言部分更是惊艳

在这里插入图片描述

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MavenTalk

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值