声临其境！体验阿里云开源音频基座大模型——FunAudioLLM

周周的奇妙编程

已于 2024-08-03 16:05:31 修改

阅读量4.6k

点赞数 30

文章标签：阿里云音视频云计算

于 2024-08-03 15:53:09 首次发布

本文链接：https://blog.csdn.net/qq_44373268/article/details/140891810

版权

千等万等，终于还是等来了阿里最新开源的音频基座大模型FunAudioLLM，真不愧是AI届的活菩萨啊，不过，我心心念念的达摩院寻光AI视频创作平台到底什么时候开放啊！！

停止发疯，进入正题。。。

引言

【语音】作为人工智能的【启蒙钥匙】，不仅率先踏出实验室大门，步入寻常百姓家，也成为了人类与AI初次触电的【桥接技术】。初期，智能语音技术的研究重心落在了语音识别领域，致力于使机器具备理解人类语言的能力。

回顾历史，AT&T贝尔实验室推出的Audrey系统，作为电子计算机领域的先驱，成功辨识了10个英文数字，开启了这一征程。1988年，李开复博士突破性地构建了首个运用隐马尔可夫模型的大词汇量语音识别系统Sphinx。1997年，Dragon NaturallySpeaking的问世，标志着全球首个供消费者使用的连续语音输入系统的商业化。而至2009年，微软Windows 7操作系统内置的语音功能，进一步普及了该技术。

转折点发生在2011年，iPhone 4S携Siri登场，智能语音技术由此迈入**【互动】**新纪元。同年，谷歌内部启动了Google语音搜索的测试，预告着这一功能即将登上Google的舞台。

从单纯识别到实现互动，这一跨越为人机交互的繁盛奠定了坚实基础。时至今日，语音交互技术已渗透至智能家居、智能驾驶乃至机器人领域，在AI技术迭代的推动下愈发流畅，应用生态呈现多样化。技术层面，各大云服务提供商通过API形式对外开放其AI语音服务，极大促进了开发者基于此的创新应用开发。

近年来，随着大规模预训练模型的兴起，直接在模型层面上的开放与定制化调整日益受到瞩目。开发者能够通过模型训练与微调，深度优化模型性能，进而提升其在特定应用场景下的部署效能，为语音技术的广泛应用开辟了新的路径。

GPT-SoVITS作为一个标志性的语音合成框架，已经为行业树立了高质量语音生成的标准。它通过深度学习模型，尤其是基于WaveNet和Transformer架构的创新，实现了语音自然度和真实感的显著提升，为用户带来了接近真人的听觉体验，在上线后便获得极高热度，仅需提供 5 秒语音样本，便可收获相似度达到 80%~95% 的克隆语音。

随着技术的不断迭代与需求的日益多元化，ChatTTS作为后起之秀，在继承SoVITS等前辈优点的同时，进一步聚焦于对话场景的优化与个性化表达，能实现更加流畅、连贯及富含情感色彩的语音输出，甚至包括语气词、笑声。

而在本月，阿里通义实验室也发布了最新的研究成果音频基座大模型FunAudioLLM，其中包括两大模型SenseVoice和CosyVoice，这一发布标志着阿里在语音技术领域取得了重大进展，并且是对现有技术如GPT-SoVITS和ChatTTS的重要补充和提升。

FunAudioLLM简介

本部分内容均为周周翻译并总结自论文，有兴趣的朋友可以直接阅读原文，地址如下：https://arxiv.org/pdf/2407.04051

如上文所述，FunAudioLLM主要包括两大模型SenseVoice和CosyVoice。其中：

SenseVoice：精准多语言识别与情感辨识。

多语言识别：采用超过** 30 万小时的数据训练，支持超过 50 种语言，在中文和粤语上的识别准确度提升超过 50%**。
情感辨识：具备出色的情感识别能力，在测试数据上达到或超过当前最佳情感识别模型的效果。
声音事件检测：能够识别多种情绪和交互事件，如音乐、掌声、笑声、哭声等。
模型架构：包括自动语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED），能够适应不同应用场景。

CosyVoice：模拟音色与提升情感表现力

多语言合成：采用了总共超** 15 万小时**的数据训练，支持中英日粤韩 5 种语言的合成，合成效果显著优于传统语音合成模型。
极速音色模拟：仅需要** 3 至 10 秒的原始音频，即可生成模拟音色，包含韵律和情感等细节，甚至能够实现跨语言**的语音生成。
细粒度控制：支持通过富文本或自然语言形式，对生成语音的情感和韵律进行细粒度控制，大大提升了生成语音在情感表现力上的细腻程度。
模型架构：包含回归变换器，用于生成输入文本的语音标记；基于 ODE 的扩散模型（流匹配），用于从生成的语音标记重建梅尔频谱；以及基于 HiFTNet 的声码器，用于合成波形。

在有了基本了解之后，下面分别对其架构进行简要说明。

SenseVoice

SenseVoice 是一个语音基础模型，具有多种语音理解功能，包括 ASR、LID、SER 和 AED。为了适应不同的需求，提出了两种不同规模和架构的模型SenseVoice-Small和SenseVoice-Large。

SenseVoice-Small ：一个仅编码器模型，经过优化以实现快速的语音理解。它提供了高速处理能力，同时支持5种语言。

SenseVoice-Large：一个编码器-解码器模型，旨在实现更精确的跨语言范围的语音理解。它在准确性方面表现出色，并支持广泛的语言能力。

CosyVoice

CosyVoice 由一个自回归变换器（用于为输入文本生成相应的语音标记）、一个基于 ODE 的扩散模型、流匹配（用于从生成的语音标记重建梅尔频谱）和一个基于 HiFTNet 的声码器（用于合成波形）组成。虚线模块在特定模型用途中是可选的，例如跨语言、SFT 推理等。

关于上述两块内容，在论文中也有基于底层原理的说明，但由于篇幅和专业性的限制，这里我们还是将重点放在模型的体验上，不过多赘述其底层原理了。

FunAudioLLM应用场景

语音到语音翻译(语音转译)

通过整合 SenseVoice、大型语言模型（LLMs）和 CosyVoice，我们可以轻松地执行语音到语音的翻译（S2ST）

示例地址：https://funaudiollm.github.io/

比如说一个中国男子用中文询问 “今天去哪儿吃饭？”，他的语音会被 SenseVoice 解析成文字。接着，这些文字被传送到大型语言模型进行翻译，将其转化为英文 “Where are you going to eat today?”。最后，CosyVoice 将翻译后的英文文字重新生成为美国女性的声音，完成了从中文语音到英文语音的完整翻译过程。

在上述地址中，我们也可以在线试听一些案例，包括中文转化为英、日、粤语、韩语等：

通过前后对比不难发现，FunAudioLLM生成的语音不仅在音色上保持了较高的一致性，而且在语气与表达习惯上也尽可能地做到了相近（至少在短句的情况下听起来是这样的）。

这意味着即使是跨语言转换，生成的语音也能很好地保留原说话人的特色，从而让用户感觉更加自然和真实。这种高水平的一致性和自然度对于语音转换技术来说是一个重要的里程碑，尤其是在需要高质量语音转换的应用场景中，如在线翻译等。

情感语音对话

通过整合 SenseVoice、LLMs（Large Language Models）和 CosyVoice，我们可以开发一款情感语音聊天应用。在下面的例子中，用户和助手的内容都是由 CosyVoice 合成的。

从这个案例中可以看出，FunAudioLLM生成的语音在情感表达上极其自然和真实。它不仅能够通过富文本（<|HAPPY|>、**<|Laughter|>**等）和文本语义来控制并反映所要传达的情感色彩，还能根据上下文的变化调整语调和节奏，使得合成的语音听起来更加贴近真人发声，极大地提升了用户体验和交互的真实性。

因此，以此为基础开发情感语音对话APP极具潜力，这样的应用能够在客户服务、娱乐互动甚至是心理健康支持等领域发挥重要作用。