阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

最新推荐文章于 2024-07-10 13:31:01 发布

知世不是芝士

最新推荐文章于 2024-07-10 13:31:01 发布

阅读量843

点赞数 7

文章标签：音视频人工智能产品经理 ai大模型大语言模型 LLM 计算机技术

本文链接：https://blog.csdn.net/python122_/article/details/140266654

版权

OpenAI迟迟不上线GPT-4o语音助手，其它音频生成大模型成果倒是一波接着一波发布，关键还是开源的。

刚刚，阿里通义实验室也出手了——

最新发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice和CosyVoice。

SenseVoice专注高精度多语言语音识别、情感辨识和音频事件检测，支持超过50种语言识别，效果优于Whisper模型，中文与粤语提升50%以上。

且情感识别能力强，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件检测，多方面测试拿下SOTA。

CosyVoice则专注自然语音生成，支持多语言、音色和情感控制，支持中英日粤韩5种语言的生成，效果显著优于传统语音生成模型。

仅需要3~10s的原始音频，CosyVoice即可生成模拟音色，甚至包括韵律、情感等细节，包括跨语种语音生成。

而且CosyVoice支持以富文本或自然语言的形式，对生成语音的情感、韵律进行细粒度的控制，生音频在情感表现力上得到明显提升。

话不多说，具体来看FunAudioLLM的用途以及效果展示。

FunAudioLLM能用来做什么？

基于SenseVoice和CosyVoice模型，FunAudioLLM可支持较多的人机交互应用场景，例如音色情感生成的多语言语音翻译、情绪语音对话、互动播客、有声读物等。

同音交传：模拟音色与情感的多语言翻译

通过结合SenseVoice、LLM以及CosyVoice，可以无缝地进行语音到语音的翻译（S2ST）。

需要注意的是，原始录音在文本中会以粗体显示。这种集成化的方法不仅提升了翻译的效率和流畅性，而且通过感知语音中的情感和语调，它能够在译文中复现原始语音的情感色彩，让对话的交流更加真实和动人。

无论是多语种的会议通译、跨文化的交流沟通，还是为非母语者提供即时语音翻译服务，这一技术都将大大缩小语言差距和沟通中的信息减损。

强情感交互的语音对话

通过融合SenseVoice、大语言模型（LLM）和CosyVoice，能够支持开发一款情感语音聊天应用程序。

当SenseVoice解析出情绪/情感/咳嗽等副语言信息后，大模型输出相对应的反馈情绪，并由CosyVoice生成出适当的声音情绪，从而完成舒适自然的对话交互过程。

在以下示例中，用户和助手的所有对话内容均由CosyVoice生成。

听起来是这样的：

语音对话Emotional_Voice_Chat,量子位,38秒

专属AI博客电台

通过将SenseVoice、基于LLM的具有实时世界知识的多代理系统和CosyVoice整合，能够创造一个互动式播客电台。

在这样的播客中，SenseVoice利用其高精度多语言语音识别功能，实时捕捉AI播客和用户的对话，甚至能够辨识环境音效和情感。

LLM多代理系统则能够处理SenseVoice提供的语音数据，实时更新世界知识库，确保话题和信息的及时性和准确性。在交互中，用户可以随时打断AI播客的对话，引导主题方向等，CosyVoice将用于生成AI播客的语音，具备多种语言、音色和情感的控制能力，为听众带来丰富多彩的听觉体验。

听起来效果如下：

AI播客broadcaster,量子位,2分钟

有声读物

借助于LLM出色的分析能力，可对书籍内容进行结构化并识别其中的情感，再与CosyVoice的语音生成技术结合，能够实现具有更高表现力的有声读物。

LLM深入理解文本，捕捉每一个情感波动和故事弧线，而CosyVoice则将这些情感细腻地转化为语音，带有特定的情绪色彩和强调，为听众提供一个不仅丰富多彩而且情感充沛的听觉体验。

这样的有声读物不再是单一无变化的朗读，而是一场充满情感与生动表达的听觉盛宴，让每个故事和角色都栩栩如生。

听起来是这样婶儿的：

有声读物,量子位,34秒

FunAudioLLM技术原理解析

CosyVoice

CosyVoice是一款基于语音量化编码的语音生成大模型。

它对语音进行离散化编码，并依托大模型技术，实现自然流畅的语音生成体验。与传统语音生成技术相比，CosyVoice具有韵律自然、音色逼真等特点。

CosyVoice支持多达5种语言，同时还支持以自然语言或富文本形式对生成语音进行情感等维度的细粒度控制。

研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct，可满足不同场景下的使用需求。

生成语音客观指标

研究团队分别在开源中文数据集Aishell3以及英文数据集LibriTTS上，通过语音识别测试了合成音频的内容一致性。

通过与原始音频以及最近大火的ChatTTS对比，可以发现CosyVoice的合成音频在内容一致性上更高，并且没有很少存在幻觉额外多字的现象。

CosyVoice很好地建模了合成文本中的语义信息，达到了与人类发音人相当的水平。此外，通过对合成音频进行重打分，能够进一步降低识别的错误率，甚至在内容一致性和说话人相似度上超越人类。

情感控制能力

研究团队还使用预训练的情感分类模型评价了CosyVoice的情感控制能力，主要包括高兴/悲伤/生气/害怕/反感等5种高表现力的语音情感。

测试结果表明，CosyVoice-300M本身具备一定从文本内容中推断情感的能力，经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高，具备更强的情感控制能力。

SenseVoice

SenseVoice是一个基础语音理解模型，具备多种语音理解能力，涵盖了自动语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED）。

该模型旨在提供全面的语音处理功能，从而支持构建更复杂的语音交互系统。

SenseVoice-Small是一款仅含编码器的轻量级基础语音模型，设计用于快速语音理解。它可以快速处理语音数据，并在有需要时迅速做出响应，适用于对延迟敏感的应用场合，如实时语音交互系统。

SenseVoice-Large则是一个包含编码器和解码器的大型基础语音模型。这个版本的SenseVoice专注于更精确的语音理解，拥有对更多语言的支持能力。它适合于对识别精度有更高要求的场景，可以处理更复杂的语音输入，并生成更为准确的结果。

多语言语音识别性能

研究团队在开放源数据集上比较了SenseVoice和Whisper的多语言识别性能和推理效率，包括AISHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice。

推理效率评估是在A800机器上进行的。SenseVoice-Small采用非自回归端到端架构，由此带来的推理延迟极低——相比之下，它比Whisper-Small快7倍，比Whisper-Large快17倍。

语音情感识别性能

SenseVoice也可以用于离散情绪识别，目前支持的情绪类型包括高兴、悲伤、愤怒和中性。

团队在7个流行的情绪识别数据集上对其进行了评估。即使没有对目标语料库进行微调，SenseVoice-Large都能在大多数数据集上达到或超越最新的最佳结果（SOTA）。

音频事件检测性能

SenseVoice-Small与SenseVoice-Large模型都能在语音中检测音频事件，包括音乐、掌声和笑声。

SenseVoice-Large模型除了能够预测音频事件的类型，还能精准识别事件发生的起始和结束位置。

与之相比，SenseVoice-Small模型虽然仅能预测音频中发生的事件类型（仅限于一个事件），但它能够检测到更多种类的事件，诸如在人机互动过程中可能出现的咳嗽、打喷嚏、呼吸和哭泣等。

目前，与SenseVoice和CosyVoice相关的模型已在ModelScope和Huggingface上开源，同时在GitHub上发布了相应的训练、推理和微调代码。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

知世不是芝士

关注

7
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

OpenAI迟迟不上线GPT-4o语音助手，其它音频生成大模型成果倒是一波接着一波发布，关键还是开源的。刚刚，阿里通义实验室也出手了——最新发布开源语音大模型项目，而且一次包含。，支持超过50种语言识别，效果优于Whisper模型，中文与粤语提升50%以上。且情感识别能力强，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件检测，多方面测试拿下SOTA。，支持中英日粤韩5种语言的生成，效果显著优于传统语音生成模型。
复制链接

扫一扫