Zonos-v0.1：开源 TTS 模型，支持多语言和高保真声音克隆；「Apple 智能」或即将在国内上线，苹果举行开发者活动

RTE开发者社区

于 2025-02-11 17:30:29 发布

阅读量844

点赞数 28

文章标签：开源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/agora_cloud/article/details/145575621

版权

在这里插入图片描述
开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01有话题的技术

1、Zyphra 发布 Zonos-v0.1：领先的开源文本到语音模型，支持多语言和高保真声音克隆

Zyphra 发布的 Zonos-v0.1 是领先的开放权重文本到语音模型，提供与顶级 TTS 提供商相当甚至更出色的表现力和质量。它能够在给定说话人嵌入或音频前缀的情况下，从文本提示生成高度自然化的语音。只需 5 到 30 秒的语音，Zonos 就能实现高保真度的声音克隆。它还允许根据说话速度、音调变化、音频质量和悲伤、恐惧、愤怒、快乐和喜悦等情绪进行条件化。该模型以 44kHz 的采样率原生输出语音。

主要功能：

零样本语音克隆 TTS：输入所需文本和 10-30 秒的说话人样本，生成高质量的 TTS 输出
音频前缀输入：添加文本和音频前缀，以实现更丰富的说话人匹配。音频前缀可用于引发如耳语等难以从纯语音克隆中获得的举止
多语言支持：Zonos-v0.1 支持英语、日语、中文、法语和德语
音频质量和情感控制：Zonos 提供了对生成音频许多方面的精细控制。这包括说话速度、音调、最大频率、音频质量以及各种情感，如快乐、愤怒、悲伤和恐惧。
速度快：模型在 RTX 4090 上运行时，实时性因子约为 2 倍
WebUI gradio 界面：Zonos 附带了一个易于使用的 gradio 界面，用于生成语音
简单安装和部署：Zonos 可以通过使用仓库中打包的 Docker 文件简单安装和部署。

(@Hugging Face)

2、北航推出开源 TinyLLaVA-Video 模型：小尺寸多模态视频理解框架

在这里插入图片描述

北京航空航天大学的研究团队最近发布了一个名为 TinyLLaVA-Video 的开源视频理解框架。该框架基于 TinyLLaVA_Factory 项目，专为计算资源有限的环境设计&#

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。